案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。
(3)脏数据处理
脏数据的种类有如下几种分类:
图3-8脏数据分类图
1. 数据缺失:处理过程中因系统或人为导致部分记录缺失的, 如一条记录里缺一些值(空值),或者两者都缺。如果有空值,为了不影响分析的准确性,则判断是否将空值纳入分析范围,或者进行补值。前者排除空值会减少分析的样本量,后者需要根据分析的计算逻辑,选择用平均数、零、或者等比例随机数
32
等来填补。如果缺少记录部分,若业务系统中还存有这些记录,则可以通过系统再次导入解决,若业务系统内也没有上述记录,则通过手工补录或者放弃。
2.数据重复:相同的记录出现多条,则去掉重复记录。如出现不完全重复情况,比如两条会员记录,其余值都一样,但部分值不同,如住址不一样,则以时间属性做为新值判断依据,如无时间属性的,则通过人工判断处理。
3.数据错误:数据没有严格按照规范记录。比如异常值,价格区间明明是100以内,但出现有价格=200的记录;比如格式错误,日期格式录成了字符串;比如数据不统一,有的记录叫XX,有的叫LZ,有的叫lanzhou。对于异常值,可以通过区间限定来发现并排除;对于格式错误,需要从系统级别找原因;对于数据不统一,系统无法处理,这些并非真正“错误”的记录,如系统无法判断LZ和lanzhou是同一事物,只能通过人工干预解决,如做一张清洗规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析结论,或通过近似值算法自动发现可能存在不统一的数据。
4.数据不可用:数据正确,但不可用。比如地址写成“XX省XX市西固中街1号”,想分析“区”级别的区域时还要把“西固”拆出来才能用。这种情况最好从源头解决,即数据治理。事后补救只能通过关键词匹配,且不一定能全部解决。
33
基于数据交换系统采集文化产业数据之后,结合业务现状对源数据进行加工(脏数据清洗、数据整合,统一数据指标)。提高数据可用性。
3.4.3基础模型搭建 (1)搭建目标
结合XX统计局业务情况进行,对已采集数据进行汇总,针对分析人员及领导重点关注业务及数据分析习惯,对ODS数据进行轻度/重度汇总,搭建模型存放于WEB资源池中,为OLAP多维分析、定制报表开发、自主取数进行数据支撑
图3-9 WEB资源池架构
统计基础数据:轻度汇总数据,数据粒度较细,主要用于清单数据提取,OLAP多维分析
34
统计综合数据:重度汇总数据,数据直接反映了某一指标总体情况,用于分析人员汇报、辅助领导决策。
互联网数据:通过对PC网站、手机站点、微信、APP网络途径进行网络爬虫技术分析所采集的数据。
相关部门数据:XX统计局相关合作部门数据。 (2)建模依据
根据XX省统计局相关规划,基础模型搭建主要围绕文化产业统计、”三新”统计、宏观经济预测四个方面进行数据模型建设。
结合分析部门具体需求,对底层数据进行建模处理,将底层数据进行关联、汇总得到统计基础/汇总数据,数据存放与WEB资源池,用于支撑后续OLAP分析,报表分析,针对自助取数功能,分析人员可直接在页面通过拖拽方式对新增指标进行分析。
3.4.4多维分析模型搭建
通过搭建多维分析模型,可以有效的对全行业务数据进行更加灵活的查询,更加多样化的展现方式,更加丰富的数据探索能力。本期建设基于三新统计、文化产业统计、宏观经济分析四个方面的进行多维分析模型搭建,业务管理人员能够从多角度对信息进行快速、一致、交互地存取,并能够结合自身分析思路,获得对数据的更深入了解,有效地将各种相关的信息
35