统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案 下载本文

(2)数据交换

数据交换系统通过访问接口管理实现数据共享交换的统一管理和元数据管理实现系统数据资源的统一规划。 1.数据接口

? 元数据访问接口

元数据访问接口提供了对数据结构的统一修改、访问方法,通过元数据访问接口,应用程序可以调整资源库中各个组成部分的结构、约束关系,也可以掌握目前资源库的情况。

? 数据访问接口

数据访问接口为面向应用和联机事务处理系统提供统一的访问数据的方法,包括维护、查询、统计等数据操作。通过应用系统访问接口,应用系统只需要知道信息资源库的元数据,就可以实现对数据的访问,而与数据的存储、组织方法无关,这种实现机制有效的屏蔽了网络异构、操作系统异构、数据库异构给数据访问带来的影响,保证了信息资源库的技术变化不会影响到应用系统的访问,从而既实现了应用的透明访问,又支持了资源库的不断发展和管理机制的不断完善。

? 与外系统交换接口

与外系统交换接口通过映射的技术,将外系统中数据导入到信息资源库中来,同时也可以根据外系统的需要,将信息资源库中的信息按一定格式导出到外系统中去。

28

2.元数据库

元数据是描述数据的数据。通过元数据,应用程序可以知道数据以及数据之间的关系。应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。统一的元数据管理能够保证数据从数据交换、数据建模、数据清洗、数据加载、数据存储、数据分析、数据查询、信息发布等全过程中的有效和一致性,以及使核心数据能够在不同数据库和应用中共享和同步更新。为各种应用和数据库的信息共享提供服务。

本期数据交换系统主要提供源数据采集及数据交换功能。以文化产业为例,数据源除统计局的业务数据外还包含宣传部的统计数据及互联网有关文化产业的数据。为保证数据质量,在新增数据接口前,通过制定相关政策与规章制度,以及从事数据管理规划、实施、管理、监控的团队之间协同工作,完成数据从原系统到大数据平台的采集存储工作。

3.4.2数据质量管理

数据在数据存储层中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库和多维数据库。

(1)数据整合

通过数据获取层采集到数据后,对源数据进行一定的数据处理,按主题进行数据重组和格式转换。由于源数据分散各自的业务库系统中,子系统之间使用的软硬件平台不同、字符编码及数

29

据结构不同,导致数据难以统一。因此,数据需要进展数据抽取、数据转换、数据装载的处理过程,即ETL过程。确保数据进行数据存储之前,同类业务数据的一致性和完整性。

图3-6 ETL工作流程图

1.数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据大数据平台中去。

2.数据转换主要用于解决数据不一致问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据存储层。

3.流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。

4.异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。

数据进行ETL处理之后,生成规范的综合的业务统计基础数据。根据不同的业务分析系统的业务口径,进行汇总、生成汇总数据,在汇总数据的基础上再加工生成多维数据、报表数据和统

30

计分析数据等应用数据支持数据使用层的业务系统调用。 (2)数据治理原则

图3-7数据治理原则

1.约束输入:设定用户输入权限及范围,做好输入约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,不能再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不能产生有大量相同数据的表,造成数据重复隐患。

2.规范输出:统一报表指标与参考值,统一语义,统一口径,排除计算错误,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备

31