份、安全等重点环节,进行指标量化。依据标准,对必录项的考核指标,在采集录入环节,其及时率、准确率、完整率必须达到95%以上;经过审核、修正后,其“三率”的考核指标应达到99%以上。数据管理考核结果纳入全市目标管理考核内容。
第五条 交通部门和部门人员发生下述行为之一的,上级机关可根据其危害程度、过错大小、情节轻重等,依据执法责任制和目标管理责任制追究相应责任:
(1)数据录入不及时,造成下一环节工作延误的; (2)数据录入不规范、差错率连续居高的;
(3)未认真履行数据审核职责,造成大量数据差错不能及时纠正的;
(4)未及时进行数据维护,造成应用环节数据严重失真的; (5)未按规定存储和备份数据,造成数据丢失的; (6)未按规定进行系统维护,或因过失引发信息系统运行障碍造成数据丢失的;
(7)未按规定实施安全管理防范措施,造成计算机系统瘫痪或病毒侵害严重,严重影响数据传输和存储的;
(8)未按规定执行保密制度,发生重大泄密事件的; (9)擅自对数据、权限进行修改、删除,或擅自使用他人的用户名、密码进行操作访问的;
(10)其他过错行为。
对有意破坏、恶意攻击税收应用信息系统,造成重大损失,涉嫌刑事责任的,移送司法机关处理。
37
附件B 数据质量评估办法
下面将从数据质量评估核心指标、数据质量评估模式、数据质量评估管理流程三个方面介绍数据质量评估方法。
数据质量评估的核心指标
数据质量问题频率 指标定义:数据质量问题频率=数据质量问题发生次数/存储的总数据量 指标单位:次/GB 根据数据质量评估指标将各数据仓库中的主数据及其历史行为划分为三个等级:
数据质量等级 一级 二级 三级 描述 统计口径 数据质量差,需要重点监控 数据质量问题频率大于等于1次/GB 数据质量问题频率大于等于0.5次/GB,小于1次数据质量一般 /GB 数据质量好 数据质量问题频率小于0.5次/GB 通过对数据质量问题频率的考评和等级划分,就可以从数据仓库众多的数据中解放出来,集中精力把有限的资源投入到需要重点关注的主题数据。因此数据质量可信等级是数据质量提高的有效途径。与之相配套的,必须建立了一套相关的管理制度,管理制度主要包括:
(1)可信等级初始值确立流程
38
数据中心平台各主题域的数据质量可信等级初始值一般设定为一级,由数据质量管理小组牵头,执行全面检查后报数据中心主管部门批准后确立。
(2)可信等级变更流程
数据质量管理小组每季度、每年组织定时抽查、全面检查时,每半年根据检查结果对相关主题域的可信等级提出调整意见,报数据中心主管部门批准后确立。
数据质量评估具体方法:
对于具体数据的质量检查模式采用记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法及匹配判断法。通过这些方法方法,可以对单个数据点的数据准确性进行检查,及时发现数据质量问题。
(1)记录数检查法
通过比较记录条数,对数据情况进行概括性验证。主要是检查数据表的记录数是否为确定的数值或在确定的范围内。
适用范围:
对于数据表中按日期进行增量加载的数据,每个加载周期递增的记录数为常数值或可以确定的范围时,必须进行记录条数检验。
(2)关键指标总量验证法
对于关键指标,对比数据总量是否一致。主要是指具有相同业务含义,从不同维度统计的汇总逻辑的检查。
适用范围:
同表内对同个字段从不同的维度进行统计,存在汇总关系时,必须进行总量检验。
39
本表的字段与其它表中的字段具有相同的业务含义,从不同的维度统计,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行总量检验。
(3)历史数据对比法
通过历史数据观察数据变化规律,从而验证数据质量。通常以同比发展速度进行判断。评估时应根据各种指标发展特点,重点对同比发展速度增幅(或降幅)较大的数据进行审核。历史数据对比法包括同比和环比两种方式。
适用范围:
不能进行记录数检查法、关键指标总量验证法,且事实表的记录数小于1000万条时必须进行历史数据对比法。
(4)值域判断法
确定一定时期内指标数据合理的变动区间,对区间外的数据进行重点审核。其中数据的合理变动区间范围是直接根据业务经验来确定的。
适用范围:
事实表中的字段可以确定取值范围,同时可以判定不在此范围内的数据必定是错误的。满足此条件必须进行值域判断法。
(5)经验审核法
针对报表中指标间逻辑关系仅靠计算机程序审核无法确认、量化,或有些审核虽设定数量界限,但界限较宽不好判定的情况,需要增加人工经验审核。
适用范围:
以上方法都不适用的情况下,可以使用经验审核法。
40