统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

图3-2 数据采集流程图

图3-3 源数据分布

24

1.统计局业务库数据

统计局业务库数据主要包含跟统计业务相关的各类明细数据,数据时间粒度小、数据量大、数据完整,能够正确的体现各业务的状态。数据以结构化数据的格式保存在传统关系型的数据库中,各业务系统库相对独立。 2.相关部门数据

相关部门数据是以支持自身部门服务为导向的数据。数据集合了自身业务特点的指标,相关指标与统计局部分统计业务指标一致。为了拓宽统计数据的获取渠道、提高统计数据的样本量、增加统计数据考量维度使得数据的统计更加精准。因此,采集相关部门的数据成为本项目建设的一个亮点。相关部门的数据以结构化的数据形式存储到部门业务系统中。相关部门的数据采集主要包含以下数据:

数据源 统计局数据 数据描述 投资项目数据、交通运输统计数据、“三新”统计数据、文化产业统计数据、国民经济统计数据 项目名称、计划总投资、累计完成投资、本年完成投资、PPP项目进展情况、中央预算资金、专项建设资金、企业债券等 公路、水路、航空、管道运输企业、以及运输辅助企业等数据 新商品房可售面积、发放施工许可证面积、方法预售许可证面积、新建商品房成交面积、二手房成交面积等数据 土地出让面积、按市州及土地用途分组的各项分项数据 发改委数据 交通厅数据 住建部数据 国土局数据 25

金融机构数据 工商局数据 教育局 卫生厅 海关数据 税务局数据 中长期贷款、固定资产投资贷款、房地产开发贷款、个人按揭贷款等数据 企业、个体工商户、商品交易市场信用等数据 基础教育、特殊教育、职业技术教育、校外教育、成人教育、高等教育等数据 血站、社区卫生、食品安全等数据 申报管理、审单作业、接单审核、出证管理等数据 建筑业营业税/增值税、房地产营业税/增值税、企业所得税/增值税等数据 表3-4相关部门数据表

3.互联网数据

互联网的迅速发展使得人们的生活方式更加多样化,许多经济活动可以通过互联网方式完成。因此,通过采集互联网的数据来补充统计数据是本项目的又一大亮点。互联网的数据结构复杂,隐藏的信息丰富。数据类型主要表现为文本、图片、动态数据、flash、表格、悬浮数据等;数据的来源可以为PC网站、手机站点、微信、APP等。因此,通过网络爬虫技术实现对互联网数据的采集将更加丰富和完善统计业务数据。统计结果更加接近于实际的情况。互联网数据采集主要包括如下数据:

数据源 互联网电 商类数据 互联网房 产类数据 互联网消 费类数据 互联网分类 信息数据 互联网招 聘类数据

数据描述 来自阿里巴巴、京东、淘宝、天猫等相关的电商统计指标数据 来自58同城的房产、安居客、Q房网、搜房网等相关的房产统计指标数据 来自大众点评、美团网等相关消费统计指标的相关数据 来自58同城、赶集网等相关分类信息数据 来自拉勾网、中华英才网、智联招聘等相关招聘类数据 26

互联网医 疗类数据 互联网交通 出行类数据 互联网财 经类数据 互联网汽 车类数据 互联网信 托类数据 来自丁香网、挂号网等相关医疗类数据 来自携程、去哪儿及12306订票等相关交通类数据 来自新浪财经、凤凰财经、雪球等相关财经类数据 来自58同城二手车、易车等相关汽车类数据 来自第一信托、宜信等相关信托类数据 表3-5 互联网采集数据表

以上的三种类型的数据包含结构化数据和非结构化数据。其中结构化数据存储在关系型数据库以两种形式对数据及数据文件两种形式体现;非结构化数据主要体现形式为图片文件、音视频文件等。

根据数据的表现形式,可以分为关系型数据库数据及文件数据两个形态数据;针对这两种形态数据采集处理方式如下: ? 关系型数据库数据

开通数据库接口,如socket传输或Sqoop组件实现关系型数据库中数据与平台进行对接。 ? 文本文件数据

数据文件可以通过FTP上传方式实现文件数据采集。 根据部门业务库的安全保障体系规范,统计平台提供接口协议、鉴权方式、数据提取的流程定义统一的规范,转化成标准的数据格式。统计平台根据权限控制模块开通相关部门采集权限。根据业务对数据的时效性,数据采集分为实时数据采集、定时数据采集及离线数据采集三种模式。

27

联系客服:779662525#qq.com(#替换为@)