广东财经大学学报

上海财经大学提升数据质量之道

 

数据信息是高等学校的重要资产,对数据的有效管理是数字化校园建设的重要内容之一。本文以高校信息化建设为背景,对高校信息系统数据质量现状及数据质量中的问题进行了分析,阐述了数据质量管理整体框架和内涵。

随着应用的逐步深入,学校的信息系统也逐渐暴露出一些问题。由于学校各类业务系统往往是在不同时期规划和建设的,系统之间的信息难以共享。一方面,各个系统的数据定义存在不一致;另一方面,同一数据也具有多个来源。为了有效进行数据共享,将分散在各个系统中的资源整合起来,实现数据信息的综合分析,从而为各级领导决策提供有效的数据支持, 很多学校都开发了数据接口和数据交换平台,并在此基础上开发了决策支持、数据仓库、数据挖掘等多种应用。然而由于业务人员在业务操作过程中缺乏一定的规范性,经常出现数据维护不及时、不完整、不一致的现象,同时在数据交换过程中也经常出现错误,使得数据的使用价值大打折扣。

高校数据质量现状及其原因分析

数据质量定义

“数据质量”目前没有十分准确的定义,较为被认可的概念是 Wang等人提出的“Fit for Use”,这可以理解为数据资源满足用户具体应用的程度。

信息系统的数据质量需要从多个角度综合评估,只有满足各个评估维度才能说明数据是高质量的。下面是一些常用的评估维度:

完整性:Completeness,用于度量哪些数据丢失了或者哪些数据不可用。

规范性:Conformity,用于度量哪些数据未按统一格式存储。

一致性:Consistency,用于度量哪些数据的值在信息含义上是冲突的。

准确性:Accuracy,用于度量哪些数据和信息是不正确的,或者数据是超期的。

唯一性:Uniqueness,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。

关联性:Integration,用于度量哪些关联的数据缺失或者未建立索引。

高校数据质量现状及原因分析

在高校信息化建设的多年经历以及同其他高校的交流中发现高校数据质量管理普遍存在以下一些相似的情况:一方面,各类应用系统数量多,系统间边界不清晰。学校的管理业务种类繁多,大多学校一般都是因某一管理部门的工作需要而建设系统,随即产生了不同业务领域的数据,如教师、学生、科研、教学、资产、财务等不同领域全生命周期的数据,导致各业务之间条块分割严重, 普遍存在数据源头多、不一致、异构、缺失、不完整、不准确、重复等问题。另一方面,业务操作人员普遍存在对数据质量缺乏足够重视的情况。高校信息化建设中常常是重点关注信息系统所包含的业务功能,而对系统的具体应用则重视不够,经常出现操作不及时、数据录入错误等忽视数据质量的现象,也没有采取有效的技术手段和管理措施应对。

数据质量问题的原因分析

影响信息系统数据质量的原因有多种,既有技术方面的因素,又有管理方面的因素,最终结果体现在数据没有满足一个或多个数据质量评估维度,没有达到用户预期的使用需求 。在数据产生和使用的整个生命周期中, 任何一个环节出现问题都会对数据质量产生负面影响。一般说来, 影响高校信息系统数据质量的因素主要有以下几种:

1.未制定统一数据标准。数据是一切信息系统的基础,高校在信息化建设中往往比较重视系统功能而忽视了数据的重要性,没有对数据标准进行整体规划。同时,教育行业标准的制定也相对滞后,2012年才由教育部发布了教育信息化的行业标准,而在此之前标准本身存在着内容不完整、数据冗余、概念和文字错误等问题,使得长期以来各高校缺乏可借鉴的、指导性的参考,最终导致很多系统间数据性质相同,但依据标准不一致。

2.信息化建设缺乏全校范围的宏观整体规划,即从全局角度分析各个业务之间的业务、数据依赖关系。很多高校在信息化建设初期没有对数据进行整体规划,业务系统建设各自为阵,最终形成了多个数据孤岛,导致数据不一致、无法共享等多种问题。由各个业务部门主导业务系统建设的方式,虽然短时间内可以实现部门内业务的系统化,但因各业务部门的视角局限性,难以从宏观角度审视学校全局层面的相关业务需求,造成了很多数据的源头不统一,数据冗余的现象。

3.国内教育行业软件成熟度不高,系统技术架构不一致。国内教育行业软件公司成熟度不高,对高校业务了解不深入,往往只能提供支持某一业务管理的软件,对系统的可扩展、可配置考虑不足,系统与系统间接口的开发难度较大。在系统实施过程中,都要根据高校具体的业务要求进行定制化开发,缺乏规范性。同时,各业务系统采用的技术架构以及业务数据的规范都不尽相同,造成数据库字段命名、数据颗粒以及数据表达方式的多样性,最终形成的数据逻辑表达与数据物理存放之间存在较大的差异。

上一篇:上海财经大学高校绿色数据中心建设实践
下一篇:没有了