广东财经大学学报

上海财经大学绘制高校数据集市图谱

 

系统越多,数据越多,数据服务需克服一系列的技术难关,在数据仓库,数据集市中,建立起业务关联图谱,以期为高校的各类决策提供参考。

我国高校信息化经过十多年的发展,信息系统建设已经成熟,在日常业务运作中起到了关键支撑作用。然而,由于各高校信息化建设和应用水平、领导层对信息技术的理解和认识等方面存在差异,基于数据仓库的高校数据服务应用尚处于探索和起步阶段。目前,高校数据服务应用存在的主要问题有以下几方面:

一是对高校数据服务及其应用的认识和定位存在局限性。校务决策支持是高校信息化进展到较高阶段的必然需求。高校数据服务的对象应是面向包括校领导、院系所部领导、教师、学生,甚至包括学生家长和社会公众;数据服务的内容涉及教学、人事、科研、财务、设备、招生、就业等各类信息;数据服务形式包括仪表盘、数据查询、数据订购、数据可视化分析等。

二是实施基于数据仓库的高校数据服务,需要克服一系列的技术困难。经过几年的持续建设,高校各类管理信息系统相继投入使用,但存在各业务系统数据分散存储、数据类型不同、数据定义不一致、数据缺失等情况,导致在进行数据集成和构建数据仓库时技术难度较大。

三是基于数据服务的应用需求不够明确,成熟的应用比较少。目前高校信息化建设的重点还是建设支持日常事务的管理信息系统,对数据服务应用没有足够的重视程度,开展基于数据服务的应用较少,没有充分利用多年积累的历史数据,发掘其中潜在的价值。

方法与内容

数据服务系统的建设内容包括系统架构设计、数据仓库主题划分、源数据分析、数据建模、数据ETL、决策支持应用等几方面,建设过程如图1所示。

图1 高校数据服务系统建设过程

系统架构设计

高校数据服务系统架构主要包括:数据源层、操作数据层、数据处理层、基础数据层、数据集市层、数据服务层和业务用户层。通过数据处理层将源数据抽取、清洗、转换并加载到数据存储层,然后开发基于数据的多种分析服务。

1.数据源层

数据源层是数据服务系统的数据来源,类型可以是传统的关系型数据库也可以是半结构和非结构文件。高校数据服务系统涉及的数据源比较广泛,还有来自于校外的一些外部数据源。

2.操作数据层

操作数据层是数据源层的简单映射,作为基础数据层采集数据的源头,减少数据处理层采集数据时对业务系统的影响。

3.数据处理层

由于源系统业务职能和具体需求不同,在实现时会选用不同的数据库,数据结构也可能存在较大差异,从而导致数据间有较大的异构性和不一致性,所以在数据进入数据仓库前要对源数据进行预处理。通过数据处理层实现对原始数据抽取、清洗、转换、加载,消除数据间的不一致和冗余,按数据仓库模型结构重新组织数据并加载到数据仓库,形成能够对决策提供支持的多重粒度级的数据仓库标准化数据。

数据处理层采用统一的ETL调度平台,实现ETL全过程自动化调度管理,控制数据抽取、转换、加载程序及其执行顺序、相互依赖关系、群组关系、执行状况及通知。数据处理层可以通过ETL并行处理架构优化数据处理能力,随着ETL任务的增加扩展数据处理层。数据处理层通过统一的ETL监控平台对整个数据处理过程进行全面监控,包括ETL任务运行的时间、状态以及发生错误时的错误信息等。

4.基础数据层

基础数据层是数据仓库的核心部分,主要功能是完成数据集成、合理存储数据、实现数据的标准化。基础数据层一般采用三范式方式建立的关系型数据模型,通过主题来存储和管理各类业务数据,并且保留历史。

5.数据集市层

基础数据层以原子粒度来存储数据,数据集市层根据具体应用需求对基础数据层中的数据进行适当提炼、汇总和重新组织,形成面向部门级的业务和特定主题的汇总数据,实现了访问方式的多样化和信息存取的透明化。数据集市层的数据来自基础数据层,可以确保其数据质量和数据的一致性。

6.数据服务层

数据服务层构成高校数据服务应用的门户和分析平台。借助于数据仓库提供的即时查询、预定义报表、多维分析和数据挖掘等功能,数据服务层实现了面向领导的决策支持服务、面向管理人员的数据查询服务、面向大众的数据公开服务以及面向数据应用系统的接口输出服务。

上一篇:协议家族的新成员
下一篇:没有了