统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案 下载本文

智慧统计大数据云平台建设方案2018版

统计局大数据统计平台

建 设 方 案

智慧统计大数据云平台建设方案2018版

目录

第一章 项目概述 ............................................... 5

1.1项目名称 ............................................... 5 1.2 建设单位 ............................................... 5 1.3 编制依据 ............................................... 5 1.4项目背景 ............................................... 5 1.5建设周期 ............................................... 8 1.6建设意义 ............................................... 9 第二章 建设需求 .............................................. 11

2.1建设目标 .............................................. 11 2.2 项目建设需求分析 ...................................... 11 2.3平台性能需求分析 ...................................... 15 第三章 应用支撑平台建设方案 .................................. 19

3.1 建设原则 .............................................. 19 3.2 建设目标 .............................................. 21 3.3 平台架构 .............................................. 21 3.4 大数据平台功能 ........................................ 23

3.4.1数据交换系统 .................................... 23 3.4.2数据质量管理 .................................... 29 3.4.3基础模型搭建 .................................... 34 3.4.4多维分析模型搭建 ................................ 35 3.4.5定制报表功能 .................................... 36 3.4.6自助取数平台 .................................... 38 3.4.7系统管理功能 .................................... 39 3.5数据库设计 ............................................ 40

3.5.1数据库设计目标 .................................. 41 3.5.2数据库架构 ...................................... 41 3.6大数据处理设计 ........................................ 43

3.6.1并行处理设计 .................................... 43 3.6.2数据算法提速 .................................... 47 3.7大数据存储设计 ........................................ 51

3.7.1数据分级存储 .................................... 51 3.7.2分布式数据库 .................................... 52 3.8

软硬件配置 ......................................... 54 3.8.1 选型原则 ........................................ 54 3.8.2 容量估算 ........................................ 55 3.8.3 投资估算 ........................................ 61

第四章 应用系统建设方案 ..................................... 68

4.1 应用系统功能架构 ...................................... 68

4.1.2 ETL工具 ....................................... 69 4.2业务分析系统 .......................................... 71

4.2.1“三新”统计 ..................................... 72 4.2.2文化产业统计 .................................... 76 4.3 宏观经济预测系统 ...................................... 86 4.4 应用系统配套工具 ...................................... 91 第五章 系统安全设计方案 ....................................... 93

5.1 区块链的数据安全 ...................................... 93

5.1.1区块链描述 ...................................... 93 5.1.2区块链数据保障 .................................. 94 5.2 互联网接入安全 ........................................ 94

5.3 集群系统安全 .......................................... 95

5.3.1主机安全 ........................................ 95 5.3.2操作系统安全 .................................... 96 5.4 数据备份方案 .......................................... 96

5.4.1备份策略 ........................................ 96 5.4.2分布式系统备份 .................................. 97 5.4.3负载均衡 ........................................ 97

第六章 项目招标方案 ........................................... 98

6.1招标范围 .............................................. 98 6.2评审办法建议 .......................................... 98

6.2.1评审过程 ........................................ 98 6.2.2评审办法 ....................................... 102

第七章 项目实施进度 .......................................... 111

7.1项目建设周期 ......................................... 111 7.2 实施进度计划 ......................................... 111 7.3进度保障 ............................................. 112 第八章 项目组织机构和人员培训 ................................ 113

8.1领导和管理机构 ....................................... 113 8.2项目实施机构 ......................................... 113 8.3人员培训方案 ......................................... 115

8.3.1概述 ........................................... 115 8.3.2培训目标 ....................................... 115 8.3.3培训方式 ....................................... 116

第九章 项目风险与风险管理 .................................... 118

9.1风险识别和分析 ....................................... 118

9.2风险对策和管理 ....................................... 118

9.2.1项目风险识别 ................................... 119 9.2.2项目风险估测 ................................... 119 9.2.3项目风险评价 ................................... 119 9.2.3项目风险应付措施 ............................... 120

第十章 编制单位介绍 .......................................... 121

第一章 项目概述

1.1项目名称

XX省统计局大数据统计平台

1.2 建设单位

项目建设单位: XX省统计局 单位地址:

XX省XX市城关区广场南路13号,邮政编码:730031

1.3 编制依据

XX省统计局大数据统计平台建设方案编制的主要依据是: (1)《2015年政府信息公开工作要点》(国办发〔2015〕22号) (2)《促进大数据发展行动纲要》(国发〔2015〕50号) (3)《国家电子政务工程建设项目管理暂行办法》(中华人民共和国国家发展和改革委员会第55号令)

1.4项目背景

随着我国经济进入新常态,当前各种经济社会矛盾交织在一起,经济增长下行,压力不断加大,如何准确把握经济社会形势

5

研判经济社会发展趋势并提出有针对性的政策建议,以及随着经济社会发展,各种新产业、新业态和新商业模式层出不穷,如何界定和测度新经济,这些都是摆在决策者面前的重要课题。 在当今的经济生活中,认识和判断经济形势及其未来走向,是政府、企业和个人进行决策的基础和前提。科学的统计制度方法和真实的统计数据是客观分析经济形势、准确把握经济走势的重要基础,经济形势的客观分析和经济走势的准确把握是科学决策的重要基础,科学决策是经济持续健康发展的重要保障。因此,统计是重要的基础性工作。

统计要想在经济分析、科学决策和保持经济持续健康发展中真正发挥重要作用,一方面要根据不断增长和变化的统计需求进行统计制度方法改革,提高统计制度方法的科学性和适应性,提高统计数据的准确性和及时性;另一方面要充分利用大数据分析技术对丰富的统计信息资料进行深度开发,让这些资源真正体现出应有的价值。

近年来,包括政府统计数据在内的大数据资源迅猛增长,已成为与自然资源、人力资源同样重要的国家基础性战略资源,成为促进经济增长和转型发展的新动力,成为提升政府治理能力的新途径。特别是进入信息化、互联网和大数据时代,大数据带来的一个重大改变就是信息扁平化,人人都是数据的生产者和使用者,对数据的加工、采集、汇总、综合、分析、预测,比任何时候都要迫切。发达国家大力推动大数据发展和应用,纷纷将研究

6

开发大数据上升为国家战略。党中央、国务院高度重视大数据的开发应用,大力倡导实施国家大数据战略,推进数据资源开放共享;运用大数据技术,提高经济运行信息及时性和准确性。这些都将有力推动我国大数据发展和应用。

统计局作为组织领导和协调统计工作的主管部门,具有统计制度和标准制定、统计数据搜集、加工整理、开发利用、发布等方面的法定职权和技术优势。长期以来,XX省统计局的基本业务开展仍遵循制度设计、调查采集、数据整理上报、数据发布与开发利用的顺序流程,在统计调查方面采用全面定期统计,抽样调查、普查,重点调查,典型调查等方法。近年来,统计工作信息化水平有较大提高,伴随着联网直报系统等信息化项目的应用推广,政府统计逐步实现了网络采集传输、集中存储处理、多工具分析。同时在长期的统计信息建设过程中统计部门积累了大量经济社会数据,政府相关部门也积累了海量经济社会数据。这些数据是价值连城的“宝藏”。但由于各种原因,统计部门自身只开发利用了一小部分,“宝藏”的大部分价值仍有待于进一步开发利用。

2013年全国统计工作会议和随后召开的国家统计局务虚会要求各级统计机构和广大统计人员都要树立大数据意识,结合本专业、本领域、本岗位工作实际,主动思考如何应用大数据。要加强顶层设计,做好统筹规划,找准突破口,集中力量做好系统攻关,加快研究利用搜索技术挖掘统计数据的方法,特别是各专业

7

要本着先易后难的原则,充分利用互联网上已有的公开信息,充实拓展本专业的资料获取渠道。加快研究将非标准化大数据转化为标准化统计数据的方法,积极开发自动导入企业电子化生产经营记录的软件,加快大数据的应用步伐。

从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据容易被整合、分析,原本孤立的数据变得互相联通。通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。XX省统计局大数据统计平台的使命就是通过加工整理、开发利用经济社会数据,为政府决策和社会治理提供科学依据,为促进经济社会发展服务。

1.5建设周期

XX省统计局大数据统计平台项目分两期进行建设: 第一期:将基于XX省统计局内部数据、其他部门数据和网络数据,主要服务于XX省统计局进行宏观经济预判、投资项目统计、“三新”统计和文化产业统计。第一期的建设预计招标时间大致需2个月,预计建设周期9个月,其中系统开发建设6个月,试运行3个月后正式上线运行。

第二期:将基于XX省所有政府部门、工商企业和公民个人的交易数据,建立覆盖XX省全社会、全行业,服务于XX省所有政府部门、工商企业和公民个人的大数据统计平台。力争在平台建成后,接入国家信息内外网,成为国家经济预测预警有力的数据

8

支撑平台。第二期建设需要调动XX省政府部门、工商企业和公民个人的所有数据资源,因此XX省统计局必须得到省委省政府的高度重视和支持,获得搜集和发布全省所有统计数据的授权。

1.6建设意义

目前XX省统计的主要功能为提供统计信息、为经济决策提供数据支持及监督,现有统计手段由于直报系统,解决了数据实时性和相对准确性等问题,但依然无法解决数据来源单一、重复调查现象严重、数据间相互验证性薄弱、数据孤岛、数据丰富程度不够、数据规范性不够等诸多问题,上述问题严重影响了数据质量, 使得统计数据的运用仅仅停留在领导决策宏观层面的初级判断,缺乏深入研究的数据基础,特别是基于微观数据基础的宏观经济问题分析研究;使得在发达国家本应作为经济决策预测预判依据的统计数据,在现阶段还不能高效精准的为我省宏观经济决策提供服务,不能产生使各方信服的数据结果。

为解决上述数据问题,打通各部门、各行业的数据壁垒,利用大数据时代无所不在的网络及其他数据佐证支持,使得统计局能够真正运用大数据实时挖掘技术,利用各种新兴统计算法对各行业、各部门数据进行深度挖掘,并实时对数据进行分析,使得这些数据形成有效数据结果,为经济决策者提供精准、客观、高质量的风险控制、科学管理和政策调控依据,从而使得决策者更科学的运用数据分析所得,准确判断经济发展趋势,并及时预判、

9

防范经济发展中可能出现的风险点,从而使得XX省各级政府,能够利用统计局提供的预测预警数据体系,进入到精细化、服务化、预见化管理阶段,为社会经济发展提供有力支撑。 该项目建设使得XX省统计局所统计数据能够成为有多方数据来源支持,多种算法佐证,互相能够印证的数据结果,且该数据结果能够由最终数据端,同步形成对经济决策判断有效结果,且能够实时展现到决策端,为决策者提供实时决策依据。项目建成后,XX省统计局能够依托该数据实时挖掘分析预警平台对数据的有效运用,在经济发展中真正运用所统计数据精准服务、深入参与到经济发展决策中去,成为XX及经济发展辐射区域内经济发展预测权威、全面数据的提供者,社会管理和运行行政记录信息标准规范的制定者和各项数据结果的权威发布者。

10

第二章 建设需求

2.1建设目标

XX省统计局大数据统计平台的建设目标是:建成将互联网云计算技术、大数据挖掘技术、现代统计分析技术充分融合,集数据采集、加工处理、分类计算、分析预警、报告展示、管理服务等功能为一体,实现统计系统内部业务优化整合、行业数据管理网络有效融通、统计数据资源全面开放共享、充分满足社会各界数据需求,系统操作使用简便快捷高效、运行管理安全,可靠的权威性、动态性综合信息管理系统。 XX大数据统计平台的性能要求包括:

? 更高可靠性、稳定性的“可管可控”集群; ? 更完整地实现与现有统计数据架构融合; ? 强大的内存分布式计算能力;

? 更高性能、更灵活的各类数据采集支持; ? 实现更快速、更灵活的业务开发、扩展;

? 为未来提供更好的扩展、扩容支持。

2.2 项目建设需求分析

XX省统计局大数据统计平台的最终建设目标是在省委省政府

11

的统一领导下,由XX省统计局牵头负责,利用统计局自身拥有的数据资源,力争打破数据孤岛,谋划工商、税务、金融、保险、交通运输、海关、财政、教育、医疗等各个行业数据资源的整合机制,加大对政府公开数据(含政府机构或准政府机构公共公开数据)、商业数据、互联网数据、通讯数据、物联网数据、金融数据等数据的整合力度,实现各部门、各行业、各区块数据资源的交互共享,并推动全省数据资源的整合,实现数据的共享和交互使用,满足XX省社会各界的主要数据需求,建成基于全省大数据统计系统的经济预警平台。

根据XX省统计局当前的实际情况,该项目的建设拟分两期进行,本期建设主要基于XX省统计局的现有数据、其他部门的开放数据和互联网数据,建设成服务于XX省统计局常规统计工作,具有宏观经济预判功能、三新统计功能和服务业统计功能的大数据统计平台。

目前XX省统计业务依托于企业联网直报平台进行相关的业务统计,统计业务数据相对孤立、数据价值难于体现,各部门统计数据之间矛盾日益突出。现大数据高速发展,各项技术手段日渐成熟,期望依托大数据技术,探索出统计体系科学有效的数据收集、挖掘、处理平台,打通各部门之间的屏障,建立统一的标准规范体系、拓展数据获取渠道、整合各行业数据,实现数据之前相互验证,建立统计业务分类体系、通过数据建模手段实现各项指标经济预测。

12

本期期望建设一套系统支撑平台及四套业务应用软件,具体需求如下:

2.2.1 系统支撑平台建设

建设一套先进、安全、可靠的大数据系统支撑平台,集成软硬件资源为业务应用系统的开发、整合、持续扩展和运行等提供基础性的共性服务。系统支撑平台提供构件级的框架服务,提供数据治理整合服务、并行计算框架、数据挖掘服务、数据安全及监控等基础支撑的平台。 2.2.2 业务分析系统

根据实际业务建设业务分析系统,从而完成各种类型的业务统计。业务分析系统主要包括“三新”统计模块和文化产业统计模块等建设。 (1)“三新”统计

依据现有的统计制度,设置合理的统计指标,实现新产业、新业态、新商业模式专项统计。建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实时对接;建设分类标准体系模块,实现按照国家统计局《新产业、新业态、新商业模式专项统计报表制度》的指标、分组确定指标体系,确定统计口径及数据分类;建设“三新”统计数据挖掘模块,实现电子商务、旅游经济、物流配送、城市商业综合体等领域数据与相关的运营商、不同电商之间的数据交叉挖掘体系,分析“三新”经济的增幅、占比、结构、行业集中度、

13

变化趋势等,分析判断经济的整体走势。 (2)文化产业统计

依据现有的统计制度,设置合理的统计指标,实现文化产业专项统计,建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实时对接;建设建立统计、宣传联合指标体系模块,实现文化产业数据按照联合国教科文组织的《文化统计框架—2009》的分类标准、对文化产品的生产、文化相关产品的生产、文化生产活动等指标进行数据统计,资源共享;建设文化产业统计数据挖掘模块,实现对历史数据的统计及数据建模,分析文化产业的增幅、占比、结构、行业集中度、变化趋势等,分析判断全省经济的整体走势。

2.2.3宏观经济预测系统

依据现有的统计制度,设置合理的统计指标及经济模型,实现宏观经济预测,建设安全的数据采集模块,依托省发展改革委、省交通运输厅、土地管理局、税务局等相关部门及其他安全来源的数据实时对接处理;建设经济预测模型,根据当前的经济运行状态数据、经济统计指标体系及历史数据,构建模型方程,确定模型所包含的变量、建立经济变量之间的关系,确定模型的数学形式、拟定模型中参数的符号和大小的理论期望值,用以评价模型的估计结果;引入“三新”统计模块、文化产业模块分析结果,并考虑预判期间各种政策因素及突发事件对经济形势的影响,参照《XX统计月报》指标体系,提取部分关注度高及预判相对准

14

确的指标,对宏观经济走势及发展方向进行预判。

2.2.4 应用系统配套工具 (1)分类挖掘与计算机系统

依据业务统计制度,设置合理的统计指标,实现数据的分类、汇总、计算为一体的数据分析系统。

(2)数据展现系统

依据各种统计指标计算,建设统计报表编制和统计图形制作、输出、上报为一体的数据输出系统。实现数据查询功能、基本统计指标的计算功能、图形展示功能、与office的集成及导出功能。灵活设置查询条件,快速查找符合条件的记录;满足对查询结果进行排序、分组求和等操作;实现数据计算有关指标的最小值、最大值、平均数、分位数、方差和标准差等计算功能;实现数据发展趋势、各项目占比、指标间的相关关系、时间和空间分布等信息图形化展示功能;满足导出到office办公软件里进行编辑。支持常见格式(doc、xls、cvs、html、xml、txt等)的导出,具有离线浏览交互式数据报表功能。

2.3平台性能需求分析

2.3.1 一般性需求

大数据平台应该满足下述性能要求:

(1)可靠性。系统建设采用主流产品,以保证系统的高质量

15

和稳定性;对系统如硬件、操作系统、网络、数据库应设计尽可能详尽的故障处理方案,使系统在出现故障(硬件、软件、网络)时,能够快速恢复应用系统及其相应的数据。

(2)安全性。充分考虑应用层的安全性,做好信息资源的访问控制;应用系统应能够提供用户权限配置及用户操作审计控制。

(3)扩充性。系统采用分层结构设计,网络基础设施层、应用支撑层和应用层结构易于扩充。

(4)易维护性。充分考虑系统软硬件及网络运行的实际情况,在系统总体设计上注意系统的可维护性;采用易于维护的系统平台;应用软件安装应简单、易于操作。系统数据维护方便,备份及数据恢复快速简单;系统软件配置体现自动化,避免复杂的系统配置文件。

(5)可操作性。界面友好,充分考虑操作人员的特点,使数据处理工作简单、方便、快捷。

2.3.2 业务系统性能需求

业务系统性能主要是指作业响应时间方面的要求,作业响应时间是指完成目标系统中的交互或批量处理所需要的响应时间。 根据业务处理类型的不同,把作业划分为查询类业务和统计分析类业务,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。

16

(1)查询类业务

如信息查询、统计报表生成或决策支持的信息查询等。查询业务由于受到查询的复杂程度、查询的数据量大小等因素的影响,需要根据具体情况而定,在此给出三个参考范围。

简单查询平均响应时间:不超过10秒; 复杂查询平均响应时间:不超过100秒;

极限数据查询时间:最大样本量时数据查询时间不超过3分钟;

(2)统计分析类业务

一般统计时间:不超过30秒; 一般分析时间:不超过30秒;

2.3.3 数据检索性能需求

根据数据检索方式不同,把作业划分为区块链元数检索、检索引擎检索和流式检索等要求,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。

(1)区块链元数据检索

数据检索并发:每秒600条记录; 单条记录查询时间:不超过10秒;

(2)引擎检索

要求支持OLTP/OLAP双引擎,并且OLTP引擎支持十万级/秒的事务处理速度;

17

(3)流式检索:

要求支持流要就流式计算性能达到30万条/秒,并且支持高效Sql查询。

18

第三章 应用支撑平台建设方案

根据XX省统计局当前的实际情况,该项目的建设拟分两期进行,本期建设主要基于XX省统计局的现有数据、其他部门的开放数据和互联网数据,建设成服务于XX省统计局常规统计工作,具有宏观经济预判功能、三新统计功能和文化产业统计功能的大数据统计平台。

3.1 建设原则

根据国家电子政务建设的指导思想,结合XX省统计局的具体情况,项目的建设应坚持以下几项原则: (1)规范性

系统设计开发遵循中国国家标准、信息产业部有关软件行业的通用规范、通用的国际规范及各子系统间接口标准,保证XX省统计局的各系统能够根据业务需要实现有效的连接。 (2)开放性

系统设计的各种接口在遵循规范性原则的基础上,保证其可以集成不同设备厂商、系统或平台供应商、软件供应商的产品;保证系统的设备管理、系统扩容和业务维护不依赖于单一设备厂商、系统或软件供应商的产品。 (3)先进性与成熟性相结合

系统设计采用先进的流数据实时采集挖掘技术和手段,以保

19

障系统具有高效、全面和稳定等良好品质。系统结构采用分布式、组件化技术和模块化的业务构造与系统构造方式。 (4)扩展性

系统设计应充分保证系统容量、处理能力和业务范围具有良好的扩展能力;应满足XX省统计局今后业务发展的需要,保护投资,避免重复建设。 (5)易用性

系统设计需要保证系统软件容易使用,界面简单易操作,能够使操作用户方便识别并易于操作,能够为各类用户提供良好的服务。

(6)安全性

运用区块链数据库保证系统在运营过程中管理的各种资料的安全,保证系统与其他相关系统信息交换过程的安全;保证系统业务管理体系的安全。区块链数据库技术作为互联网底层安全保障,为数据服务提供分布式安全共性技术和“基础设施安全屏障”。对传统统计专业机构所涉及范围的互联网化 新业态开发都将利用区块链数据库的定向追索性、分布式账本及留痕制,保障数据的安全性。 (7)可靠性

保证系统具有较高的可靠性和良好的容错性能,保证系统能够提供7×24小时不间断访问服务。

20

3.2 建设目标

XX省大数据统计平台定位于服务全省14个市州86个县区的数据采集,数据包括统计局的统计业务数据、相关部门数据(如:发改委数据,交通厅数据等)及互联网数据。数据采集之后,平台将对数据进行整合、清洗、汇总、分析对比、数据挖掘等一系列的数据治理活动。根据业务的需求实现各种灵活专题统计任务(如:“三新”统计等)和宏观经济预测。平台提供良好的业务扩展能力,可基于已经整合的数据资源池实现业务制度订制,实现新业务制度的建立、编辑、管理、删除等任务的订制及发布,为业务统计提供友好的扩展接口,实现新增专题统计。

3.3 平台架构

21

图3-1 平台架构图

(1)数据源

大数据统计平台的数据包括联网直报数据、住建部门数据、国土部门数据、金融机构数据、税务部门数据、省发展改革委数据、省文化厅数据、省交通运输厅数据及互联网数据,是支撑整个业务应用系统的数据统计及数据挖掘分析。 (2)数据获取层

数据整理主要通过ETL及内容分析实现数据的治理问题,确保数据的质量,保证数据的正确性、完整性、一致性、完备性、有效性、时效性和可获取性等,主要通过空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换等手段实现数据的整合。 (3)数据层

负责存储海量数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。数据加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。

(4)能力层

通过对原始数据进行整合汇总,形成上层可用的数据挖掘工具,平台能力层主要向用户提供实时数据处理能力、基础分析能力、数据挖掘能力、自助分析能力、数据共享能力等,同时面向

22

使用人员提供FTP传输、API接口、SQL\\MDX语句使用能力。 (5)应用层

数据应用层存储不同的综合级别的数据,主要包括当前明细数据、轻度综合数据、高度综合数据。根据不同的报表分割不同的数据粒度,实现数据立方体的存储。根据统计的基础数据和各行业各领域的数据构造WEB资源池。根据业务需要实现各种灵活专题统计任务(如“三新统计”、文化产业统计等)和宏观经济预测。并可以根据新的业务需求,实现新增专题统计。

3.4 大数据平台功能

3.4.1数据交换系统

数据交换系统主要实现所有源系统中原始的业务数据进行采集,并对其进行一定的数据处理,并根据业务的需要分为实时数据采集和批量数据采集,实时数据采集不能对业务系统有较大的负担影响到业务系统的运行,建议使用基于数据库日志的方式进行数据同步。整个过程按照主题进行数据重组和格式转换,传送并装载到大数据平台中。 (1)数据采集

大数据统计平台的数据包括联网直报数据、住建部门数据、国土部门数据、金融机构数据、税务部门数据、省发展改革委数据、省文化厅数据、省交通运输厅数据及互联网数据,支撑整个业务应用系统的数据统计及数据挖掘分析。

23

图3-2 数据采集流程图

图3-3 源数据分布

24

1.统计局业务库数据

统计局业务库数据主要包含跟统计业务相关的各类明细数据,数据时间粒度小、数据量大、数据完整,能够正确的体现各业务的状态。数据以结构化数据的格式保存在传统关系型的数据库中,各业务系统库相对独立。 2.相关部门数据

相关部门数据是以支持自身部门服务为导向的数据。数据集合了自身业务特点的指标,相关指标与统计局部分统计业务指标一致。为了拓宽统计数据的获取渠道、提高统计数据的样本量、增加统计数据考量维度使得数据的统计更加精准。因此,采集相关部门的数据成为本项目建设的一个亮点。相关部门的数据以结构化的数据形式存储到部门业务系统中。相关部门的数据采集主要包含以下数据:

数据源 统计局数据 数据描述 投资项目数据、交通运输统计数据、“三新”统计数据、文化产业统计数据、国民经济统计数据 项目名称、计划总投资、累计完成投资、本年完成投资、PPP项目进展情况、中央预算资金、专项建设资金、企业债券等 公路、水路、航空、管道运输企业、以及运输辅助企业等数据 新商品房可售面积、发放施工许可证面积、方法预售许可证面积、新建商品房成交面积、二手房成交面积等数据 土地出让面积、按市州及土地用途分组的各项分项数据 发改委数据 交通厅数据 住建部数据 国土局数据 25

金融机构数据 工商局数据 教育局 卫生厅 海关数据 税务局数据 中长期贷款、固定资产投资贷款、房地产开发贷款、个人按揭贷款等数据 企业、个体工商户、商品交易市场信用等数据 基础教育、特殊教育、职业技术教育、校外教育、成人教育、高等教育等数据 血站、社区卫生、食品安全等数据 申报管理、审单作业、接单审核、出证管理等数据 建筑业营业税/增值税、房地产营业税/增值税、企业所得税/增值税等数据 表3-4相关部门数据表

3.互联网数据

互联网的迅速发展使得人们的生活方式更加多样化,许多经济活动可以通过互联网方式完成。因此,通过采集互联网的数据来补充统计数据是本项目的又一大亮点。互联网的数据结构复杂,隐藏的信息丰富。数据类型主要表现为文本、图片、动态数据、flash、表格、悬浮数据等;数据的来源可以为PC网站、手机站点、微信、APP等。因此,通过网络爬虫技术实现对互联网数据的采集将更加丰富和完善统计业务数据。统计结果更加接近于实际的情况。互联网数据采集主要包括如下数据:

数据源 互联网电 商类数据 互联网房 产类数据 互联网消 费类数据 互联网分类 信息数据 互联网招 聘类数据

数据描述 来自阿里巴巴、京东、淘宝、天猫等相关的电商统计指标数据 来自58同城的房产、安居客、Q房网、搜房网等相关的房产统计指标数据 来自大众点评、美团网等相关消费统计指标的相关数据 来自58同城、赶集网等相关分类信息数据 来自拉勾网、中华英才网、智联招聘等相关招聘类数据 26

互联网医 疗类数据 互联网交通 出行类数据 互联网财 经类数据 互联网汽 车类数据 互联网信 托类数据 来自丁香网、挂号网等相关医疗类数据 来自携程、去哪儿及12306订票等相关交通类数据 来自新浪财经、凤凰财经、雪球等相关财经类数据 来自58同城二手车、易车等相关汽车类数据 来自第一信托、宜信等相关信托类数据 表3-5 互联网采集数据表

以上的三种类型的数据包含结构化数据和非结构化数据。其中结构化数据存储在关系型数据库以两种形式对数据及数据文件两种形式体现;非结构化数据主要体现形式为图片文件、音视频文件等。

根据数据的表现形式,可以分为关系型数据库数据及文件数据两个形态数据;针对这两种形态数据采集处理方式如下: ? 关系型数据库数据

开通数据库接口,如socket传输或Sqoop组件实现关系型数据库中数据与平台进行对接。 ? 文本文件数据

数据文件可以通过FTP上传方式实现文件数据采集。 根据部门业务库的安全保障体系规范,统计平台提供接口协议、鉴权方式、数据提取的流程定义统一的规范,转化成标准的数据格式。统计平台根据权限控制模块开通相关部门采集权限。根据业务对数据的时效性,数据采集分为实时数据采集、定时数据采集及离线数据采集三种模式。

27

(2)数据交换

数据交换系统通过访问接口管理实现数据共享交换的统一管理和元数据管理实现系统数据资源的统一规划。 1.数据接口

? 元数据访问接口

元数据访问接口提供了对数据结构的统一修改、访问方法,通过元数据访问接口,应用程序可以调整资源库中各个组成部分的结构、约束关系,也可以掌握目前资源库的情况。

? 数据访问接口

数据访问接口为面向应用和联机事务处理系统提供统一的访问数据的方法,包括维护、查询、统计等数据操作。通过应用系统访问接口,应用系统只需要知道信息资源库的元数据,就可以实现对数据的访问,而与数据的存储、组织方法无关,这种实现机制有效的屏蔽了网络异构、操作系统异构、数据库异构给数据访问带来的影响,保证了信息资源库的技术变化不会影响到应用系统的访问,从而既实现了应用的透明访问,又支持了资源库的不断发展和管理机制的不断完善。

? 与外系统交换接口

与外系统交换接口通过映射的技术,将外系统中数据导入到信息资源库中来,同时也可以根据外系统的需要,将信息资源库中的信息按一定格式导出到外系统中去。

28

2.元数据库

元数据是描述数据的数据。通过元数据,应用程序可以知道数据以及数据之间的关系。应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。统一的元数据管理能够保证数据从数据交换、数据建模、数据清洗、数据加载、数据存储、数据分析、数据查询、信息发布等全过程中的有效和一致性,以及使核心数据能够在不同数据库和应用中共享和同步更新。为各种应用和数据库的信息共享提供服务。

本期数据交换系统主要提供源数据采集及数据交换功能。以文化产业为例,数据源除统计局的业务数据外还包含宣传部的统计数据及互联网有关文化产业的数据。为保证数据质量,在新增数据接口前,通过制定相关政策与规章制度,以及从事数据管理规划、实施、管理、监控的团队之间协同工作,完成数据从原系统到大数据平台的采集存储工作。

3.4.2数据质量管理

数据在数据存储层中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库和多维数据库。

(1)数据整合

通过数据获取层采集到数据后,对源数据进行一定的数据处理,按主题进行数据重组和格式转换。由于源数据分散各自的业务库系统中,子系统之间使用的软硬件平台不同、字符编码及数

29

据结构不同,导致数据难以统一。因此,数据需要进展数据抽取、数据转换、数据装载的处理过程,即ETL过程。确保数据进行数据存储之前,同类业务数据的一致性和完整性。

图3-6 ETL工作流程图

1.数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据大数据平台中去。

2.数据转换主要用于解决数据不一致问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据存储层。

3.流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。

4.异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。

数据进行ETL处理之后,生成规范的综合的业务统计基础数据。根据不同的业务分析系统的业务口径,进行汇总、生成汇总数据,在汇总数据的基础上再加工生成多维数据、报表数据和统

30

计分析数据等应用数据支持数据使用层的业务系统调用。 (2)数据治理原则

图3-7数据治理原则

1.约束输入:设定用户输入权限及范围,做好输入约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,不能再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不能产生有大量相同数据的表,造成数据重复隐患。

2.规范输出:统一报表指标与参考值,统一语义,统一口径,排除计算错误,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备

31

案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。

(3)脏数据处理

脏数据的种类有如下几种分类:

图3-8脏数据分类图

1. 数据缺失:处理过程中因系统或人为导致部分记录缺失的, 如一条记录里缺一些值(空值),或者两者都缺。如果有空值,为了不影响分析的准确性,则判断是否将空值纳入分析范围,或者进行补值。前者排除空值会减少分析的样本量,后者需要根据分析的计算逻辑,选择用平均数、零、或者等比例随机数

32

等来填补。如果缺少记录部分,若业务系统中还存有这些记录,则可以通过系统再次导入解决,若业务系统内也没有上述记录,则通过手工补录或者放弃。

2.数据重复:相同的记录出现多条,则去掉重复记录。如出现不完全重复情况,比如两条会员记录,其余值都一样,但部分值不同,如住址不一样,则以时间属性做为新值判断依据,如无时间属性的,则通过人工判断处理。

3.数据错误:数据没有严格按照规范记录。比如异常值,价格区间明明是100以内,但出现有价格=200的记录;比如格式错误,日期格式录成了字符串;比如数据不统一,有的记录叫XX,有的叫LZ,有的叫lanzhou。对于异常值,可以通过区间限定来发现并排除;对于格式错误,需要从系统级别找原因;对于数据不统一,系统无法处理,这些并非真正“错误”的记录,如系统无法判断LZ和lanzhou是同一事物,只能通过人工干预解决,如做一张清洗规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析结论,或通过近似值算法自动发现可能存在不统一的数据。

4.数据不可用:数据正确,但不可用。比如地址写成“XX省XX市西固中街1号”,想分析“区”级别的区域时还要把“西固”拆出来才能用。这种情况最好从源头解决,即数据治理。事后补救只能通过关键词匹配,且不一定能全部解决。

33

基于数据交换系统采集文化产业数据之后,结合业务现状对源数据进行加工(脏数据清洗、数据整合,统一数据指标)。提高数据可用性。

3.4.3基础模型搭建 (1)搭建目标

结合XX统计局业务情况进行,对已采集数据进行汇总,针对分析人员及领导重点关注业务及数据分析习惯,对ODS数据进行轻度/重度汇总,搭建模型存放于WEB资源池中,为OLAP多维分析、定制报表开发、自主取数进行数据支撑

图3-9 WEB资源池架构

统计基础数据:轻度汇总数据,数据粒度较细,主要用于清单数据提取,OLAP多维分析

34

统计综合数据:重度汇总数据,数据直接反映了某一指标总体情况,用于分析人员汇报、辅助领导决策。

互联网数据:通过对PC网站、手机站点、微信、APP网络途径进行网络爬虫技术分析所采集的数据。

相关部门数据:XX统计局相关合作部门数据。 (2)建模依据

根据XX省统计局相关规划,基础模型搭建主要围绕文化产业统计、”三新”统计、宏观经济预测四个方面进行数据模型建设。

结合分析部门具体需求,对底层数据进行建模处理,将底层数据进行关联、汇总得到统计基础/汇总数据,数据存放与WEB资源池,用于支撑后续OLAP分析,报表分析,针对自助取数功能,分析人员可直接在页面通过拖拽方式对新增指标进行分析。

3.4.4多维分析模型搭建

通过搭建多维分析模型,可以有效的对全行业务数据进行更加灵活的查询,更加多样化的展现方式,更加丰富的数据探索能力。本期建设基于三新统计、文化产业统计、宏观经济分析四个方面的进行多维分析模型搭建,业务管理人员能够从多角度对信息进行快速、一致、交互地存取,并能够结合自身分析思路,获得对数据的更深入了解,有效地将各种相关的信息

35

关联起来,使用户在分析汇总数据的同时能够深入到自己感兴趣的细节数据中,以便更全面地了解情况,让数据发挥更大的效用。通过提供多维分析模型,业务管理人员能够结合自身需求进行报表的定制,从而大大减少固定报表的需求量。

图3-10 OLAP功能分析

多维分析模型是一种在线数据分析工具、帮助用户进行多角度、立体化、灵活动态的分析业务数据,同时具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。

数据生成基础统计数据及综合统计数据之后,可根据对投资数据进行多维度分析。根据指标的排序、下钻、上卷等操作对投资数据做进一步的分析。

3.4.5定制报表功能

以“统计局各级领导,工业交通统计处等各级领导,下属

36

部门(中心)的各级领导”的视角,提供统计局各业务统计指标监控。通过地图对标、趋势对比与智能简报分析,帮助各级领导快速、方便掌握全省经济总体情况,如:当前全省图书馆建设数量,房地产投资总额,某行业供需资源波动、日/月交通运输载货量等情况。

报表工具作为企业大数据平台建设的重要组成部分,主要对企业数据仓库中整合的 各主题域业务数据,按照业务运营管理要求,面向集团、子公司各级部门,快速提供准确、 全面、灵活的体现公司业务运营实际的数据信息,为决策支持、业务管理提供有效的数据 信息支撑。 分析报表主要由以下作用

(1)数据比对分析:同比、环比、占比、对标、趋势、排名、20/80分析、ABC分析、预算完成率等。

(2)图形化展示: 除了常见的报表、趋势图、柱状图、饼图等外,还提供非常可视化的交通灯、雷达图、智能简报等展现方式,支持多层次向下钻取、阈值设置与自动颜色告警

(3)指标预警:系统能直接定位各类异常指标,第一时间发现相关问题,管理者及相关人员每日第一时间得到经营简报和异常情况,可以根据系统进一步定位原因,研究找到解决办法,及时采取措施,控制风险。

(4)下钻分析:系统通过逐层下钻,直接从汇总数据下钻到明细数据;彻底改变过去管理型报表只知道总数,不知道原

37

因的弊端;改变过去被动由直属下级单位汇总上报数据,到现在各级经营者随时查询、直接获取,及时监控、监督、预警各业务和产品的经营情况。

(5) 支持多种数据输出方式:如文件输出(Excel、HTML、CSV、PDF等)、 Email输出、Web发布、打印输出等;

(6)其他功能:多维度、多角度报表与图形联动、地图钻取、报表钻取、目录树钻取等。

对于新增指标/维度,本系统支持二次开发,需要新增/优化定制报表,开发方可提供定期维护或进行技术培训的方式保证数据正常。

3.4.6自助取数平台

随着社会发展,统计局需分析数据及指标不断变化,为满足部分分析人员个性化需求,需要对平台中所有底层标签进行汇总归类,并开放图形化界面方便分析人员使用,

报表工具作为企业商业智能系统建设的重要组成部分,主要对企业数据仓库中整合的 各主题域业务数据,按照业务运营管理要求,面向集团、子公司各级部门,快速提供准确、 全面、灵活的体现实际的数据信息,为决策支持、业务管理提供有效的数据 信息支撑。

自主取数平台主要由以下特点:

(1)纯B/S架构,不用安装任何客户端, 用户直接通过拖拽

38

的方式即可配置起一张报表,报表设计过程所见所得; (2) 支持自定义报表,支持用户个性化报表制定、保存及相关管理功能,选择界 面灵活、友好;

(3) 报表提供打印功能,支持网页直接打印或PDF打印; (4) 支持交叉报表,即报表维度可以横向和纵向同时多维度展现数据;

(5)支持分析型报表,采用OLAP分析引擎,支持报表数据上钻、下钻、切片、 旋转等功能;

(6) 支持多种数据输出方式,如文件输出(Excel、HTML、CSV、PDF等)、 Email输出、Web发布、打印输出等; 对于新增指标/维度,分析人员可依据系统操作手册,在前台应用进行拖拽式操作,实现数据分析功能

3.4.7系统管理功能 (1)系统控制台管理模块

系统控制台管理模块完成大数据统计平台的启动、停止、备份、恢复、重新启动、注销登录用户等功能。 (2)系统配置管理模块

系统配置管理模块完成统一用户管理与授权系统的数据库表结构的维护,系统资源的增加、修改、授权、查询,数据库复制等功能。系统资源是大数据统计平台所提供的所有功能模块及其集合,包括界面菜单项、具体模块以及模块中的功能等内容。

39

(3)权限管理模块

平台用户包括系统管理员、组管理员、一般操作员和信息查询员,系统用户具有编号、编码和名称等属性。为了管理的方便,将系统划分为操作员组和操作员层次,角色是定义在一组资源上的权限,角色权限描述角色与资源操作权限间对应关系的信息实体,一个角色拥有一些资源及其在资源上的权限,权限是对某一资源的操作许可类型。操作员组代表一组操作员的信息实体,操作员组、操作员都可以分配角色。

权限管理模块主要包括:系统用户增加、系统用户注销、系统用户授权、系统用户资料修改、系统用户查询;角色增加、角色修改、角色授权、角色查询;操作员组的增加、修改、授权、查询;操作员的增加、修改、授权、查询; (4)日志管理模块

日志管理模块提供用户登录日志管理功能以及日志管理工具,让系统管理人员能方便地查看到用户访问的历史数据及各种系统日志信息。日志主要包括系统参数日志、系统运行日志、信息打印日志、系统用户操作日志、接口访问日志。

3.5数据库设计

数据库系统包括专业数据库、数据库维护体系、数据库管理体系。其中,专业数据库包括基本单位名录库、人口信息资源库、地理信息库、统计业务数据库。同时,制定统一的数据库标准规

40

范,实现各类统计数据的统一管理、集成和应用;制定统一的服务接口规范,实现跨行业、跨部门、跨平台的信息共享与服务。

3.5.1数据库设计目标

(1)数据库的本地性,外部数据通过采集模块加载到大数据统计平台的数据库中;

(2)控制数据适当冗余,考虑到本地性、并发行、可靠性、一致性、开销等;

(3)工作负荷分布,充分利用每个节点的计算能力和资源提高性能;

(4)存储的能力,分布式的存储提高数据的存储能力。 3.5.2数据库架构

41

图3-11 数据库架构

基础数据层

基础数据层包括统计业务数库(普查数据库、人口信息资源库、地理信息库、基本单位名录库、一套表数据库、宏观数据库)、外部数据库(住建部门数据、国土部门数据、税务部门数据、金融机构数据)及互联网数据库作为基础明细数据,是支撑整个业务应用系统的数据统计及数据挖掘分析的基础。

轻度汇总层

基于基础数据层的相关数据,进行数据整合,生成多维信息库、“三新”统计基础明细数据库、文化产业统计基础明细数据库及宏观经济预测基础明细数据库。主要整合的相关部门的数据指标如下:

1.公安厅人口总数、性别分布、城镇分布、乡村人口,年龄段分布、户籍迁出、迁入等数据信息;

2.人社厅新增就业人数、登记失业率、失业动态监测、人力资源市场供需资料、农民工调查数据等数据信息;

3.科技厅的孵化器内企业总数、在孵企业从业人员、在孵企业总收入、在孵企业累计获得财政资助额、当年获得投融资的企业数量、孵化器孵化基金总额等数据信息;

4.国土部门土地招、拍、挂拍卖情况,购置面积、购置价款、投资主体等数据信息;

42

5.住建部门房地产项目审批系统资质、许可证书、房地产开发项目预售许可证发放情况等数据信息;

深度汇总层

实现主题域之间进行关联、汇总计算及模型预测。汇总数据服务于各项业务统计, 模型预测服务于宏观经济预测。

3.6大数据处理设计

3.6.1并行处理设计

并行计算是大数据统计平台基础支撑,通过分布式的计算框架可以实现对历史数据的批量处理、实时数据处理、SQL联邦查询及标签引擎搜索等。 (1)批量历史数据处理

分布式的内存数据实现数据历史数据的批量处理,分布式内存数据库提供数据的高速存取,高频事务处理能力。通过高扩展的分布式高速内存架构,具备了支持复杂事务、容错机制、高吞吐、低延时,高并发等特性。根据业务口径规则实现对专题统计业务的T+1的数据处理。 (2)实时数据处理

实时数据处理:实时数据获取源数据,快速进行数据分析确保在规定时间内获取到分析结果。分布式内存流数据库能够在毫秒级内连续、稳定地传输及分析处理数据的流数据库。数据流具有时间序列特征的有序项集,有着连续的、无限的、随时间不断

43

变化的、仅能处理一遍等特点。分布式内存流数据库能够自动优化Pipeline,具有容错、可重复和高可用性特征的复杂数据处理工作负载、确保资源可用性,管理作业间的从属性、不必担心重试瞬时失效或超时的单个任务,还可以做到侦测问题并将故障报告给系统等问题。提供基于时间的窗口和基于事件数量的窗口来呈现滚动式窗口和滑动窗口两种模式,基于滑动窗口的数据流模型对于处理概率数据、不确定数据及模糊数据等,有着十分重要的作用。同时,分布式内存流数据库所拥有着优秀数据整合能力,提供对流动的数据和相对“静态”的数据,比如状态数据的集成。

(3)SQL联邦查询

平台提供SQL联邦查询技术,通过该技术增强功能将使客户机能够访问和集成数据,能够专门计算各种关系型(Oracle、Mysql等数据库)和非关系型数据源。SQL联邦查询具备有以下的特性:

1.透明性。SQL联邦查询对用户掩盖了底层数据源的差异、特

质和实现。最理想的情况是,它使一组联邦数据源对用户而言象是一个系统。用户不需要知道数据是以哪种物理方式存储的,或者数据是否被分区或被复制;用户应该看到一个统一的接口,包括单一的一组错误代码(错误代码透明性)。SQL联邦查询提供了所有这些特性,使得在编写应用程序时就好象所有数据都位于一个数据库中,尽管事实上,数据可能存储在异构的数据源集合

44

中。

2.异构性。SQL联邦查询可以异构是指各数据源之间的差异程

度。数据源在许多方面可以不同。它们可以运行在不同的硬件上,可以使用不同的网络协议,以及使用不同的软件来管理它们的数据存储。它们可能具有不同的查询语言、不同的查询能力甚至不同的数据模型。它们可能非常类似于这样两个 Oracle 实例:一个运行 Oracle 8i,另一个运行 Oracle 9i,并且模式可能相同或者不同。SQL联邦查询可以容纳所有这些差异,将上述这些系统封装在一个无缝的透明联邦体中。

3.优化的性能。 SQL联邦查询优化器是关系数据库管理系统

的组件,它决定执行每条查询的最佳方式。关系查询是非过程化的,每个关系运算符通常有几种不同的实现,而且在执行一条查询时,可供选择的运算符的可行顺序有许多种。虽然一些优化器使用启发式规则来选出一种执行策略,但联邦数据库考虑各种可能的策略,对每种策略可能的成本建模,然后选出一种成本最低的策略。

(4)标签搜索引擎

标签搜索引擎可以周期性地监控信息变化情况,对发生变化的信息自动建立索引,能够实现针对内容的全文检索以及针对各类属性的特征检索。主要通过Solr、Elasticsearch和分布式内存数据库紧密结合实现信息检索。

标签搜索引擎提供如下检索能力:

45

1.智能检索。智能检索包括智能中文分词(采用了上万条歧义

排除规则)、广义同义词检索、主题词典控制检索以及相似性检索。

2.相关度排序和时间排序。检索系统提供相关度排序和时间排

序两种有效的排序输出方式,相关度排序以检索词与内容的相关性为依据对检索结果排序;时间排序则保证把最新的内容优先输出。

3.增量更新。检索系统采用增量更新方式对内容进行更新,即

每次检查内容的变化时,只对新添加或发生变化的内容进行更新,索引性能明显优于只能进行完全更新的系统,并且把对系统本身的访问压力降至最小。

4.开放性。检索系统把内容进行各种自动标引后,统一存储在

数据库中(内容检索服务器或数据库),使这些信息成为可以再开发利用的资源。

随着统计业务信息资源的激增,传统基于关键字的信息检索方法因返回的结果集不够精炼,与用户需求偏差大使得信息检索查准率降低。利用集体智慧,以自由化的、合作共享的组织形态,允许用户自由地描述资源,增强了标签资源间的相关性和用户间的交互性,提高个性化信息检索服务的准确性和专业性提供一条可行途径。

46

图3-12标签搜索流程图

3.6.2数据算法提速

大数据统计平台操作的是统计业务的数据,对于部分实体数据为了保护自身的利益将数据进行处理上报。因此通过有效的数据挖掘技术手段来甄别数据的真实性显得尤为重要。

图3-13数据挖掘方法

(1)分布式聚类算法

47

利用工商信息、企业基本信息、税务信息等记录,我们可以构建出一个网络拓扑结构,以构建企业的相应属性标签,属性标签可以反向标记回企业,从而企业具有群体属性。

图3-14企业聚类图

聚类分析时数据挖掘的一个重要分支,目标是将数据对象分组成为多个类或簇,在同一个类中的对象之间有较高的相似度,而不同类中的对象差别较大。早期的聚类多采用无监督方式,但随着数据挖掘领域的扩展,很多的行业问题,需要有监督的数据挖掘技术。

图3-15基于内存计算的分布式聚类算法

48

算法目标是模块度函数,该函数定义为簇内实际连接数目与随机连接情况下蔟内期望连接数目之差,用来衡量企业项目的划分质量,整个过程自底向上进行。

图3-16 聚类算法模块图

图3-17 聚类算法模块图

内存计算(In-Memory Processing),实质上就是CPU直接

49

从内存而非硬盘上读取数据,并对数据进行计算、分析。尤其是对于复杂的模型,往往需要较多迭代次数才能收敛,而基于磁盘的分析方式(Hadoop上的Mahout)则IO开销巨大。 (2)基于内存计算的分布式分类算法

分类问题是机器学习中的经典问题,文本、语音、图像等各种领域都有广泛应用。拟针对具备核密度技术的分类方法实现基于内存的分布式算法。所参考的方法是DLR:Density-based Logistic Regression (Chen et al. KDD 2013)

图3-18 分类算法模块图

(3)高维度异构数据的降维算法

数据和维数之间往往有相关性,用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。

50

图3-19高纬度异构数据的降维算法

3.7大数据存储设计

3.7.1数据分级存储 (1)数据分级存储原则

数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。

(2)数据融合与分级存储实施

将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。

将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。

51

3.7.2分布式数据库

数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。

(1)海量存储,在线横向扩展

1.控制器集群体系架构,所有控制器并行承担数据IO、保障系统整体负载均衡,数据分散存储,避免单控制器故障带来的风险和性能的瓶颈,支持控制器在线横向扩展,满足持续增长的容量和性能需求。

2.支持NAS/ Object/IP-SAN/ IB-SAN存储接口,并且支持SAN、NAS、Object同时运行,满足客户在不同时间、不同地点、不同业务对存储的不同需求,支持Windows、Linux、Unix等多种操作系统并存的复杂网络环境中,轻松实现跨操作系统的数据存储与共享,另外支持NFS/CIFS/FTP等多种文件共享协议。 3.支持丰富的主机连接接口,支持1Gb/10Gb iSCSI、40Gb/56Gb InfiniBand主机连接,无缝接入用户现有环境,满足客户对高带宽及高性能的差异化需求。

4.全面支持Flash /SSD/SAS/SATA各类常见存储介质,模块化的容量扩展模式,支持数据分级存储,满足各类型应用。

(2)数据持续保护,业务运行无忧

1.支持数据卷隔离映射功能、数据快照功能、快照回滚、远

52

程卷复制(同步/异步)、远程数据复制及恢复、逻辑分区动态扩容。

2.支持数据副本、数据纠删码、自动分层等多种数据冗余保护和性能加速功能,为用户提供高级别的数据保护及容灾功能。 3.支持全集群Active-Active、Active-Standby、全局热备等控制器工作模式,保障整体系统的高可用,确保数据存取及业务运行万无一失。

4.支持软硬件故障时的数据自动修复,系统可用性达到99.999%。

(3)模块化设计,人性化管理

1.AS13000各主要部件均采用模块化设计,客户按需选择,维护、升级、管理简单方便。

2.支持数据副本、全局热备,以及自动构建RAID、各RAID级别间执行在线迁移不影响正常数据应用。

3.完备监控管理方式,当系统出现异常时,除了通过机器指示灯报警外,可通过邮件等方式将异常状况及时通知管理员。 4.集中部署,统一管理。 (4)绿色节能

1.全系统选取节能降耗的处理器、芯片组、风扇和散热片等部件,提高系统的能效利用率。

2.支持在线扩容/缩减时数据自动迁移,确保系统按需配置,同时支持Maid磁盘节能技术,降低磁盘能耗,节约开支。

53

3.支持自动精简技术,大大提高存储资源利用率。

3.8 软硬件配置

3.8.1 选型原则

主要软硬件选型原则如下:

(1)高可靠性和高可用性原则。硬件平台应稳定、可靠,能够满足大数据统计平台管理工作的要求;选择主流供应商,提供系统高可用性解决方案。

(2)先进成熟性原则。系统应具有产品和技术先进性,选择产品和技术应具有一定的前瞻性,能够适应未来一段时间(3-5年)业务需求及技术发展变化的需要。同时尽可能兼顾产品和技术的成熟性,增强系统的整体稳定性。

(3)高可扩展性原则。系统平台必须提供足够的可扩展能力以满足未来3-5年业务增长变化的需要。

(4)经济性和投资保护原则。在选择硬件平台时,应充分考虑现有系统硬件的投资保护,充分利用现有资源,坚持在先进、高性能前提下合理投资,以期在成本最佳的前提下获得最大的经济效益和社会效益。

(5)高可管理性原则。硬件平台应提供丰富的、图形化的管理工具,便于管理及系统问题诊断。

(6)安全可靠原则。软硬件产品自身需具有一定的安全性,

54

能够满足整体安全策略的要求。同时,设计中还应注重信息安全体系的建设,提高系统的整体安全性,进一步保证数据安全。

(7)开放式标准原则。软硬件产品需支持业界通用的开放式标准,降低因兼容性问题造成的问题发生率,提高系统的稳定性,满足系统间灵活的信息交互的需要。同时,充分考虑产品可扩展性,满足不断发展变化的业务和技术需求 。

(8)统一标准化原则。软硬件产品应坚持标准化的原则,采用业界公认的行业或技术标准,降低管理复杂度。同时,坚持统一化的原则,整个项目内的所有同类的硬件基础设施应尽可能采用统一的标准。

(9)本地语言支持原则。软硬硬件产品需具有本地语言支持功能。

3.8.2 容量估算

(1)WEB服务器技术指标分析

WEB服务器主要提供WEB服务,本系统要求的用户并发数较大,对主机的处理能力要求较高。

系统处理能力表现为单位时间内完成交易的能力(简称并发处理能力)。Web服务器处理能力 (tpmC)按下列公式计算:P=U1×N1×T×E/J

U1──系统同时在线用户人数;

N1──平均每个用户每分钟发出业务请求,取0.7; T──平均每次访问产生6个事务;

55

E──经验系数为2;

J──考虑服务器保留30%的冗余,取0.7;

根据业务量估算,3年后系统要支持同时在线用户数为370440人。

P=370440*0.7*6*2/0.7=4445280≈445万

(2)应用服务器处理能力技术指标分析

根据大数据工程设计规范中的主机处理能力公式: 主机处理能力(TPMC)按下列公式计算:

P?m1??1??2?K160?J1

式中 P──主机处理能力,单位为每分钟处理的交易量(tpmC);

m1──预测近期年的日均交易量,单位为笔;

?1──忙日集中系数,一般取2~4,取4; ?2──忙时集中系数,一般取0.2~0.25,取0.25;

K1──平均交易复杂度,一般取4~10,取8; J1──主机处理能力保留系数,取0.7。 P1=370440*4*0.25*8/60/0.7=70560≈7万

(3)报表服务器处理能力技术指标分析

由于报表服务器主要用于固定报表的生成和显示,因此,报表服务器的主机处理能力(TPMC)可以按下列公式计算:

56

P?m1??1??2?K160?J1

式中 P──主机处理能力,单位为每分钟处理的交易量(tpmC);

m1──预期未来第三年报表的日均业务访问量,单位为笔;

?1──忙日集中系数,一般取2~4,取4;

?2──忙时集中系数,一般取0.2~0.25,取0.25;

K1──平均交易复杂度,一般取4~10,取8;

J1──主机处理能力保留系数,取0.7。 因此,报表服务器主机处理能力需求: P=740880*4*0.25*8/60/0.7=141120≈14万

(4)数据库服务器处理技术指标分析

根据大数据工程设计规范中的主机处理能力公式: 主机处理能力(TPMC)按下列公式计算:

P?m1??1??2?K160?J1

式中 P──主机处理能力,单位为每分钟处理的交易量(tpmC);

m1──预测近期年的日均交易量,单位为笔,取日均交易量的1.5倍;

?1──忙日集中系数,一般取2~4,取4;

?2──忙时集中系数,一般取0.2~0.25,取0.25;

K1──平均交易复杂度,一般取4~10,取8;

57

J1──主机处理能力保留系数,取0.7。 P=370440*1.5*4*0.25*8/60/0.7=105840≈11万

(5)内存容量技术指标分析 内存容量的计算应考虑的因素: (1)主机操作系统运行开销; (2)运行时内存数据库所使用的内存; (3)运行时中间件所占用的内存; (4)数据库数据读写缓存; (5)应用系统所占内存;

(6)网管及其它应用如安全审计、交易监控等所用内存。 内存容量选择时还要考虑到主机正常运行时,内存利用率不应大于70%,才能保证系统在业务高峰时具有较强的抗冲击能力; 一般内存建议128G-256G,具体配置由常用业务计算数据大小决定。

(6)存储容量技术指标分析

业务系统数据涉及统计局数据、省发展改革委数据、住建

部门数据、国土部门数据、金融机构数据、税务部门数据、互联网电商类数据、互联网房产类数据、互联网消费类数据、互联网分类信息数据、互联网招聘类数据、互联网医疗类数据、互联网交通出行类数据、互联网财经类数据、互联网汽车类数据、互联网信托类数据等数据,预计月增量为1200GB(即1.17TB)数据,一年的数据预计为14.06TB的数据量。

58

业务数据预估 数据源 统计局 数据 数据描述 投资项目数据、交通运输统计数据、“三新”统计数据、文化产业统计数据、国民经济统计数据 项目名称、计划总投资、累计完成投资、本年完成投资、PPP项目进展情况、中央预算资金、专项建设资金、企业债券等 公路、水路、航空、管道运输企业、以及运输辅助企业等数据 新商品房可售面积、发放施工许可证面积、方法预售许可证面积、新建商品房成交面积、二手房成交面积等数据 土地出让面积、按市州及土地用途分组的各项分项数据 中长期贷款、固定资产投资贷款、房地产开发贷款、个人按揭贷款等数据 企业、个体工商户、商品交易市场信用等数据 基础教育、特殊教育、职业技术教育、校外教育、成人教育、高等教育等数据 血站、社区卫生、食品安全等数据 申报管理、审单作业、接单审核、出证管理等数据 建筑业营业税/增值税、房地产营业税/增值税、企业所得税/增值税等数据 来自阿里巴巴、京东、淘宝、天猫等相关的电商统计指标数据 来自58同城的房产、安居客、Q房网、搜房网等相关的房产统计指标数据 59

月增量 一年数据量(GB) 80 (TB) 0.94 发改委 数据 交通厅 数据 住建部 数据 国土局 数据 金融机 构数据 工商局 数据 教育局 卫生厅 海关数据 税务局 数据 互联网电 商类数据 互联网房 产类数据 10 0.12 20 0.23 20 0.23 10 0.12 10 0.12 10 0.12 10 10 10 0.12 0.12 0.12 10 0.12 100 1.17 100 1.17

互联网消 费类数据 互联网分类信息数据 互联网招 聘类数据 互联网医 疗类数据 互联网交通出行类数据 互联网财 经类数据 互联网汽 车类数据 互联网信 托类数据 来自大众点评、美团网等相关消费统计指标的相关数据 来自58同城、赶集网等相关分类信息数据 来自拉勾网、中华英才网、智联招聘等相关招聘类数据 来自丁香网、挂号网等相关医疗类数据 来自携程、去哪儿及12306订票等相关交通类数据 来自新浪财经、凤凰财经、雪球等相关财经类数据 来自58同城二手车、易车等相关汽车类数据 来自第一信托、宜信等相关信托类数据 100 100 100 100 100 100 100 100 1.17 1.17 1.17 1.17 1.17 1.17 1.17 1.17 总计 表3-20 业务数据估算表

1200 14.06 分布式存储系统用于存储系统的业务统计源数据(全量)、互联网数据以及数据计算和中间临时数据。其中,源数据包含来自统计业务数据、其他相关部门数据;互联网数据主要包括相关统计指标的网络数据;中间结果数据包括数据运算的中间结果、临时结果等数据。分布式存储系统所需存储空间计算如下:

数据类型 数据描述 统计业务数据及相关部门全年数据量:该数据为以上图业务数据估算表中统计统发改委数据、计局数据、交通厅数据、住建部数据、国土局数据、金融机构数据、工商局数据、教育局、卫生厅、海关数据、税务局数据等总和。 数据量 (TB) 源数据 数据量 2.34 60

互联网 数据量 互联网的统计指标数据全年数据量:该数据为以上图业务数据估算表中统计互联网电商类数据、互联网房产类数据、互联网消费类数据、互联网分类信息数据、互联网招聘类数据、互联网医疗类数据、互联网交通出行类数据、互联网财经类数据、互联网汽车类数据、互联网信托类数据等总和。 中间结果,占原始数据的25% (源数据+互联网数据+中间结果)*3 索引等其他存储开销,占数据库数据量的20% 数据库管理空间,占数据库数据量的30% 数据库数据量+系统开销空间+管理空间 11.72 中间结果 数据量 数据库 数据量 系统开 销空间 管理空 间空间 存储容量 3.52 52.73 10.55 15.82 79.10 表3-21数据容量估算表

综上所述,每年的数据存储量为79.10TB。 (7)网络带宽分析

按照集群的计算路由特点,每个任务的调度时候各节点的并行计算都需要进行数据交换,网络的带宽是集群性能的重要性能指标因素,建议使用万兆局域网,连接主机、服务器等设备。生产局域网与其它局域网之间使用VLAN技术、防火墙等进行网络隔离。

3.8.3 投资估算

(1)投资估算说明

XX省统计局大数据统计平台项目的投资估算依据国家建设项目投资估算的有关规定编制,投资估算遵循“符合规范、结合实际、经济合理、不重不漏、计算正确”的指导原则。

61

本方案设备价格参照厂商报价和有关资料计算,设备的运杂费包含在设备费中,不另单列。

应用系统软件定制费,按定制各种应用系统软件需要的工作量和人工费用估算。

(2)总体投资估算

本项目的估算依据存储量、计算量、软件开发成本及运维成本等进行投资估算。主要包含有硬件设备、软件产品、开发人力成本等,总体估算如下:

序号 1 2 3 总计 软件产品 硬件设备估算 软件投资估算 开发成本估算 金额(万) 324.00 136.00 541.69 1001.69 表3-22总投资估算表

(3)硬件设备估算

根据存储容量估算、数据库服务器处理能力、内存容量等分析建议硬件配置清单如下:

硬件 序号 用途

硬件 配置 62

配置 说明 单价(万) 数量 金额(万)

数据交换平台 1 4CPU 32G,8 * 2T 数据采集 7200转硬盘,4个服务器 GB以太网卡 4CPU 32G,8 * 2T 数据交换 7200转硬盘,4个服务器 GB以太网卡 实现数 据采集 提供对外 数据交换 服务 10 2 20.00 2 10 2 20.00 主数据仓库 CPU:4CPU 10core 不低于Intel Xeon E5-2650V3; X86服务 内存: 128G-256G; 器集群 硬盘:16* 900G 10000转; 网卡:4个10GB以太网卡 运行内存MPP数据库、运行Hadoop集群 1 22 12 264.00 网络设备 1 相关服务之间连接网络设备 设备以及与历史数据直连 10 2 20.00 总计 324.00 表3-23硬件估算表

(4)软件投资估算

根据报表服务器处理能力、数据库服务器处理能力、内存容量等分析建议软件配置清单如下:

序号 1 2 软件产品 多维分析工具 互联网数据采集工具 单价 (万) 数量 1 1 金额 (万) 0 50 0.00 50.00 63

3 4 总计 GR报表展现工具 Hadoop商业版 50 3 1 12 50.00 36.00 136.00 表3-24软件估算表

(5)开发成本估算

开发成本主要包括软件开发价格与工作量、商务成本、国家税收和企业利润等项有关。主要使用以下计算公式进行估算:

软件开发成本 = 开发工作量 × 开发费用/人·天

软件开发工作量与估算工作量经验值、风险系数和复用系数等项有关:

软件开发工作量 = 估算工作量 × 风险系数 (1)估算工作量。工作量的计算是按一个开发工作人员在一个月内(日历中的月,即包括国家规定的节假日)能完成的工作量为单位,也就是通常所讲的“人·天”。

(2)风险系数。估算工作量经验值亦会存在较大风险,造成软件危机的因素很多。特别当软件企业对该信息工程项目的业务领域不熟悉或不太熟悉,而且用户又无法或不能完整明白地表达他们的真实的需求,从而造成软件企业需要不断地完善需求获取,修改设计等各项工作。因此:

l ≤ 风险系数 ≤ 1.5

本项目建设主要包含分类挖掘与计算系统、数据展现系统、业务分析系统和宏观经济预测系统,其相关的开发工作量估算如

64

下:

工作量估算(人/天) 里程牌 工作描述 软件开发计划 配置管理计划 软件测试计划 质量保证计划 小计 需求调查 需求分析 编制需求分析文档 小计 体系结构设计 数据模型设计 系统模型设计 系统原型设计 系统安全设计 分类挖掘与计算概要设计 数据展现系统概要设计 文化产业概要设计 “三新”统计概要设计 宏观经济预测概要设计 文化产业详细设计 “三新”统计详细设计 宏观经济预测详细设计 小计 文化产业数据采集 “三新”统计数据采集 宏观经济预测数据采集 文化产业数据建模 “三新”统计数据建模 宏观经济预测数据建模 文化产业数据展现 “三新”统计数据展现 宏观经济预测数据展现 分类挖掘与计算系统 最小可能工作量 最可能工作量 最大可能工作量 估算结果 (天) 项目 管理 需求 分析 23 25 26 22 36 19 26 41 41 46 41 40 40 62 49 66 53 45 57 49 49 53 57 57 91 104 70 66 87 66 65

25 27 29 25 38 21 29 42 42 47 42 42 42 64 51 68 55 47 59 51 51 55 59 59 93 106 72 68 89 68 27 29 32 28 40 23 32 43 43 48 43 44 44 66 53 70 57 49 61 53 53 57 61 61 95 108 74 70 91 70 25 27 29 25 105 38 21 29 88 42 42 47 42 42 42 64 51 68 55 47 59 51 652 51 55 59 59 93 106 72 68 89 68 系统 设计 项目 开发

软硬件运行管理监控平台开发 大数据系统备份软件平台开发 小计 系统集成测试 用户验收测试 小计 培训 87 62 124 83 89 64 127 85 91 66 130 87 89 64 872 127 85 212 1 1930 总计 表3-25工作量估算表

编号 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 模块描述 应用系统软件开发 文化产业数据采集/整合 “三新”统计数据采集/整合 宏观经济预测数据采集/整合 文化产业数据建模 “三新”统计数据建模 宏观经济预测数据建模 文化产业数据展示 “三新”统计数据展示 宏观经济预测数据展示 分布式内存数据库统计操作 分布式流数据库统计操作 分类挖掘与计算系统 软硬件运行管理监控平台开发 大数据系统备份软件平台开发 工作量 平均单价 合计 (人/天) (人民币 元) (人民币 万元) 大数据统计平台应用软件开发工作量,单位:人天 150 140 150 100 100 110 110 110 130 240 240 50 100 200 1500 1500 1500 3000 3000 3000 1600 1600 1600 4000 4000 1000 2000 2000 22.50 21.00 22.50 30.00 30.00 33.00 17.60 17.60 20.80 96.00 96.00 5.00 20.00 40.00 2 2.1 应用系统软件开发小计 集成费 软件安装集成费 1 472.00 18.00 集成费小计 3 3.1 3 18.00 售后服务 软件售后服务(三年) 17.23 51.69 售后服务小计

66

51.69

总计 541.69 表3-26人力成本估算表

67

第四章 应用系统建设方案

应用系统面向XX省统计业务发展的实际需要,拟建设分类挖掘与计算系统、报表生成系统、业务分析系统和宏观经济预测系统等。该系统应与统计局已经实施的“四大工程”有机结合,充分利用“四大工程”的现有资源,进一步完善基本单位名录库,增加数据标签和微观交易数据,从而可以为政府的宏观决策提供灵活多样的统计分析报告。

4.1 应用系统功能架构

XX省统计局大数据统计平台应用系统功能主要由系统管理、ETL平台、联网直报、自助取数、多维分析五大功能组成。总体架构图如下所示:

68

图4-1 总体架构图

4.1.1 系统管理

通过系统管理界面,操作人员可进行权限管理、密码修改、系统日志管理、用户管理等基本操作

4.1.2 ETL工具

ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环,它是承前启后的必要的一步。

图4-2 ETL介绍

数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据转换主要用于解决数据不一致性问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据仓库系统中。ETL流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等

69

各个环节,如何进行回退处理的一套机制。 4.1.3 联网直报

企业按照一套表制度规定的调查内容,采用统一的数据采集处理系统,将原始数据通过互联网直接报送统一的数据中心,实现各级统计机构在线同步接收、共享原始数据。实施联网直报,统计局可直接取数后加工汇总,有利于加快统计数据的传递速度,提高统计的时效性,增强统计抗干扰能力,从源头上控制数据质量;同时,实施联网直报,企业不用每月向统计局来回跑动,减轻了企业统计人员的负担。 4.1.4 自助取数

报表工具作为企业商业智能系统建设的重要组成部分,主要对企业数据仓库中整合的各主题域业务数据,按照业务运营管理要求,面向企业各级部门,快速提供准确、全面、灵活的体现公司业务运营实际的数据信息,为决策支持、业务管理提供有效的数据信息支撑。 4.1.5 多维分析

一种在线数据分析工具、帮助用户进行多角度、立体化、灵活动态的分析业务数据,同时具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。 通过数据查询分析平台可以提供多样化的数据表达形式,其中固定报表可以满足规划化的报表需求、统计图表更加形象的反

70

映隐藏在数据总的特有规律、对维度分析可以实现对数据立方体的多层次多角度直观观察、平台可以方便的与Office应用对接,可以导出到office 办公软件里进行编辑。与Office集成,即在Office中即可交互式查看多维数据集。满足现有办公模式的需求、地图分析测可以形象刻画地域投资分布情况,为区域性的数据划分提供便捷,直观的理解数据方式、系统以电子报表模式呈现必要的报表统计,避免传统的大量纸质报表模式,工作环境更加绿色环保。

4.2业务分析系统

对数据进行从部门、用户、产品、合同、设备号的钻透式分析,从部门、产品、时间、行业、等进行多维度、多指标、同环比、旋转、下钻、切片、红绿灯、趋势对比、对比图、排名、报表等多维分析与监控。涵盖业务包括:“三新”统计模块和文化产业统计模块等建设。

根据实际需要,业务分析统计系统应该可以不断扩展,从而完成各种类型的专题统计。本期项目建设完成后应该满足 “三新”统计和文化产业统计的需求。

71

图4-3业务分析系统图

4.2.1“三新”统计 建设目标

“三新”统计模块是按照国家统计局《新产业、新业态、新商业模式专项统计报表制度》的相关指标整合工商部门数据、税务部门数据及互联网数据,形成电子商务、旅游经济、物流配送、城市商业综合体等领域数据形成可挖掘“三新”经济统计数据集。模块以“三新”经济体制为基础,重点关注科技企业孵化器、众创、众包、众扶、众筹、开发园区、新服务业领域,以统计创新为目的,确立共享经济统计及现代农业作为大数据统计及“三新”统计的新亮点,突破传统的统计局限,树立“三新”统计标杆作用。模块具备数据导入、互联网数据采集、数据整理、数据查询、数据计算、数据分类统计、数据展示、数据输出、数据分析等功

72

能。

需求分析

结合“三新”统计实际业务划分,本期建设主要有以下模块组成

(1)“三新”经济指标数据采集模块:

实现与省发展改革委、农业厅、电子商务、开发园区、税务局及互联网等数据实时对接采集,将数据加载至大数据平台,实现提质增效果转型升级统计、工业战略性新兴产业统计、四众平台统计、电子商务统计等新产业、新业态界定行业范围和标准统计。重点通过采集互联网数据实现现代农业及共享经济体制的统计提供了可行的基础。

(2)“三新”经济统计指标深度汇总模块

在现有“三新”统计制度基础上,按照经济活动性质、服务业载体形态、要素组合模式进行的交叉汇总使用。 (3)现代农业统计

根据农业厅、孵化器、开发园区等相关部门的数据统计现代农业的相关指标。通过种养大户、家庭农场、农民专业合作社和农业产业企业的等角度分析创新农业经营体制机制。分析对比分散性、低效性的传统农业经营主体及实行“合作社+公司+农户”模式现代农业经营主体所带来的利润; 统计农民专业合作社作模式中现代农业经营主体情况、家庭承包经营情况等相关经济指标,作为“三新”经济统计的新亮点。

73

(4)共享经济统计

根据《国务院关于印发促进大数据发展行动纲要的通知》提倡互联互通、数据资源共享的原则及《国务院关于积极推进“互联网+”行动的指导意见》的相关精神。重点在“三新”统计模块实现共享社会经济统计,尽而促进共享经济的发展。共享经济主要体现在住宿、交通,教育服务以及生活服务及旅游领域,由于共享经济新模式层出不穷,公司在需求端不断为用户提供更优质体验取没有保留下相关的痕迹,因此需要借助互联网数据整合供给端线下资源,尽而完善共享经济的基础数据。如通过网络爬虫技术采集互联网相关数据,如58同城的房产、安居客、Q房网、搜房网、58同城、赶集网、蚂蚁短租、小猪短租等房屋出租信息,通过数据大数据挖掘手段实现短租房、短租公寓、日租房、酒店式公寓、买房、租房等共享经济相关指标的统计。

建设方案

1.“三新”经济指标数据采集模块:

为保证以上目标实现,大数据平台在数据对接时实现以下功能。

a)搭配ETL抽取工具:ETL具备可视化展示功能,此工具可针对不同系统进行数据抽取操作。

b)数据存储规范及操作手册:在进行ETL工具开发同时,开发设计人员需提供完整的操作说明手册,使用人员严格按照手册进行操作。

74

c)异常数据处理功能:为保证数据抽后数据符合大数据平台数据规范,数据抽取后对脏数据、冗余数据进行加工处理,方便后续分析人员使用及相应指标。

2.“三新”经济统计指标深度汇总模块

分析维度:

地区、时间、服务增值、节能环保、材料、高新技术等 分析指标:

节能环保产业、新一代信息技术产业、生物产业、高端装备制造业、新能源产业、新材料产业、新能源汽车等各指标同环比差额、同环比增长率。

展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示

3)现代农业模块 分析维度:

地区、时间、企业孵化器、高新区、在园区、高新技术等 分析指标:

农业生产现代化、科学技术现代化、物质装备现代化、农业经营管理现在化、农业环保现在化等各指标同环比差额、同环比增长率。

75

展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示

(4)共享经济统计 分析维度

地区、时间、新服务企业、四众分类、电商平台、互联网金融等 分析指标

主要分析产品共享类如汽车、设备、玩具、服装;空间分享类如住房、办公室、停车位、土地;知识技能类如智慧、知识、能力、经验;劳务共享类如生活服务行业等各指标的地区分布、年度同环比差额、同环比增长率

展现方式

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示 4.2.2文化产业统计

XX省作为具有丰富文化底蕴大省,在文化产业统计更是文化

76

建设重中之重,为使统计结果更加贴近XX省实际情况,从06年开始建立了本省基本制度,基本情况表和企业财务表,为后建设华夏文明传承创新区做了充分准备

文化及相关产业是指为社会公众提供文化产品和文化相关产品的生产活动的集合。 包括:

(1)以文化为核心内容,为直接满足人们的精神需要而进行的创作、制造、传播、展示等文化产品(包括货物和服务)的生产活动。

(2)为实现文化产品生产所必需的辅助生产活动。 (3)作为文化产品实物载体或制作(使用、传播、展示)工具的文化用品的生产活动(包括制造和销售)。

(4)为实现文化产品生产所需专用设备的生产活动(包括制造和销售)。

建设目标

文化产业统计模块以省统计局文化产业统计为基础,兼顾省文化厅、省广电局、省新闻出版局、省旅游局、省档案局、省商务厅、海关等相关业务厅局的行业数据和互联网大数据,具备数据导入、部门数据比对、数据整理、数据查询、数据计算、数据分类统计、数据展示、数据输出、数据分析等功能。

建设内容: (1)财务量指标分析

77

财务量指标作为目前社科处已有指标, 在现有统计制度基础上,实现法人基本信息和财务信息的交叉汇总使用:多维度汇总 (2)外部指标数据采集模块

实现与省文化厅、省广电局、省新闻出版局、省旅游局、省档案局、省民政厅等相关业务厅局的行业数据和互联网数据进行对接,将数据加载至大数据平台,从而可以对文化产品的生产、文化相关产品的生产、文化生产活动等指标进行数据统计,资源共享,为分析文化产业的增幅、占比、结构、行业集中度、变化趋势以及判断全省经济的整体走势作为提供数据基础 (3)接入互联网数据

通过对互联网数据进行抓取分析,得到互联网相关指标,为文化统计数据

1.文化及相关产业发展概况分析

对结合XX省法人单位概况、固定资产投资概况、文化娱乐消费情况、核心文化产品进出口情况、省财政文化产业支出等几个方面进行综合分析,以图表性质在系统进行展现 2.文化及相关产业法人单位发展情况分析

对XX文化相关产业进行分析,按企业性质、企业规模、登记注册类型、企业控股等属性进行汇总统计,协助业务人员了解相关产业法人单位发展情况

3.其他主要文化行业发展情况分析

对XX文化出版物基本情况、广播电视电影服务情况、文化艺

78

术服务情况、文化休闲娱乐服务情况、与文化产业相关的通信业基本情况、文化创意和设计服务情况等指标进行汇总统计,协助业务人员了解相关产业法人单位发展情况

建设方案 1. 财务量指标分析 建设目标:

结合统计局已有财务指标,对现有历史/当月新出数据录入大数据平台,结合相关业务,进行汇总分析,分析结果以报表、图形化形式展示 建设方案: 分析维度:

地区、行业代码、单位规模、法人属性,登记注册类型 分析指标:

固定资产原价、本年折旧、营业收入、营业成本、营业利润、主营业务税金及附加、差旅费、投资收益、资产总额、实收资本等相关指标 展现方式:

a) 界面自动化报表展现 b) 拖拽式报表自助取数 c) 图形化展示

2. 外部指标数据采集模块 建设目标:

79

实现与省文化厅、省广电局、省新闻出版局、省旅游局、省档案局、省民政厅等相关业务厅局的行业数据和互联网数据进行对接,将数据加载至大数据平台,保证抽取后数据不失真,与愿意同数据一致,且抽取后数据符合大数据平台数据规范,无脏数据、冗余数据等现象 建设方案:

为保证以上目标实现,大数据平台在数据对接时实现以下功能。

a)搭配ETL抽取工具:ETL具备可视化展示功能,此工具可针对不同系统进行数据抽取操作。

b)数据存储规范及操作手册:在进行ETL工具开发同时,开发设计人员需提供完整的操作说明手册,使用人员严格按照手册进行操作。

c)抽取数据与原系统一致性监控功能:大数据平台开放ETL可视化数据监控功能。此部分功能主要包括:

数据平衡性监控:即数据记录数与原系统是否一致。 乱码现象监控:数据抽取后是否有乱码现象。

单列数据监控:以收入指标为例,原系统数据收入汇总后500万 ,抽取至大数据平台收入应与原系统相同。

d)异常数据处理功能:为保证数据抽后数据符合大数据平台数据规范,数据抽取后对脏数据、冗余数据进行加工处理,方便后续分析人员使用及相应指标。

80

3. 文化及相关产业发展概况分析 建设目标:

对接上游系统数据,将XX省法人单位概况、固定资产投资概况、文化娱乐消费情况、核心文化产品进出口情况、省财政文化产业支出等相关数据抽取至大数据平台并夹在存储,根据业务规则搭建后台数据模型,统计结果以页面形式进行展示。 建设方案:

1>法人单位概况分析:重点注意 分析维度: 地区、产业类别 分析指标:

文化及相关产业法人单位数、文化及相关产业增加值、结构及占GDP比重、从业人员、资产总计、营业收入、营业利润、利润总额、增加值、主营业务收入。

展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示

2>固定资产投资概况 分析维度:

时间、产业类别、地区、施工情况、投产情况

81

分析指标:

实际到位资金、家预算资金、国内贷款、利用外资、自筹资金、其他资金、新增固定资产、固定资产交付使用率、总投资额、 展现方式:

a) 界面自动化报表展现 b) 拖拽式报表自助取数 c) 图形化展示

3>文化娱乐消费情况 分析维度:

时间、地区、家庭人均收入分档、文化消费支出分档 分析指标:

家庭人均收入、文化消费支出、居民户口(城镇居民、农村居民)、年末文化耐用消费品拥有量、 展现方式:

d) 界面自动化报表展现 e) 拖拽式报表自助取数 f) 图形化展示

4. 文化及相关产业法人单位发展情况分析 建设目标:

对接上游系统数据,将XX省法人单位概况、固定资产投资概

82

况、文化娱乐消费情况、核心文化产品进出口情况、省财政文化产业支出等相关数据抽取至大数据平台并夹在存储,根据业务规则搭建后台数据模型,统计结果以页面形式进行展示。 建设方案: 1>法人单位概况分析 分析维度:

地区、企业性质:企业登记注册类型、企业规模、登记注册类型、企业控股:是登记注册类型一部分、限额情况、重点/非重点服务业划分 分析指标:

企业财务指标(企业单位数、固定资产原价、本年折旧、主营业务税金及附加、营业利润(补贴收入)、财务费用、应付职工薪酬、应交增值税、工业总产值、主营业务收入、工业销售产值等)、R&D活动企业数、R&D人员全时当量、R&D经费内部支出、R&D项目数、新产品项目数、开发新产品经费、新产品销售收入、专利申请、有效发明专利 展现方式:

d) 界面自动化报表展现 e) 拖拽式报表自助取数 a) 图形化展示

5. 其他主要文化行业发展情况分析

83

对接上游系统数据与其他外部数据,将文化出版物基本情况、广播电视电影服务情况、文化艺术服务情况、文化休闲娱乐服务情况、与文化产业相关的通信业基本情况、文化创意和设计服务情况等相关数据抽取至大数据平台并夹在存储,根据业务规则搭建后台数据模型,统计结果以页面形式进行展示。 建设方案: 1>出版物基本情况 分析维度: 地区、出版物种类、 分析指标:

出版数量、进货量、销售量、库存量、出版的机构数、人员数、印刷企业财务指标、图书进出口指标、期刊进出口指标、报纸进出口指标、版权合同登记指标,全国作品自愿登记指标,版权引进和输出指标 展现方式:

a) 界面自动化报表展现 b) 拖拽式报表自助取数 c) 图形化展示

2>文化艺术服务情况 分析维度: 地区、时间

84

分析指标:

有线广播电视用户情况、无线广播电视用户情况、广播电视节目制作和播出情况、广播节目制作情况、电视节目制作交易情况、广播节目播出情况、电视节目播出情况、电视剧播出情况、广播电视从业人员情况、广播电视收入资产情况、广播电视收入情况、各地区广播电视企业单位经营情况、广播电视企业单位创收情况、广播电视企业单位资产负债情况、电视节目进出口情况、电视节目进出口情况、电视节目进出口情况、电影发展情况。 展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示

3>文化休闲娱乐服务情况 分析维度: 地区、时间 分析指标:

国家级风景名胜区相关指标、娱乐场所相关指标、娱乐场所相关指标、网吧相关指标、各地区网吧相关指标 展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数

85

c)图形化展示

4>文化创意和设计服务情况 分析维度: 地区、时间 分析指标:

广告经营单位情况、广告从业人员情况、广告经营额情况、建筑设计资质企业财务状况(企业数、年末从业人员、营业收入、工程设计收入、营业成本、营业税金及附加、利润总额(应交所得税)、净利润、资产合计(流动资产、固定资产)、负债合计、所有者权益合计等)、建筑装饰工程设计资质企业财务状况(同建筑设计资质企业) 展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示

4.3 宏观经济预测系统

建设目标

宏观经济预测是把一系列重要的能够反映经济运行状况的宏观经济指标,划分为超前、同步和滞后三类指标,并以此建立各种指数或模型来描述宏观经济的运行状况和预测未来走势,以及时采取有效的宏观经济管理措施来应对经济的发展变化。

86

先行指标(又称领先指标或超前指标)是指在总体经济活动达到高峰或低谷之前,先行出现高峰或低谷的指标。先行指标是经济景气分析的有力工具,利用它们的变动特征和它们与总体经济变动之间的超前关系,可以分析预测总体经济何时扩张,达到高峰;何时收缩,落至低谷。先行指标主要有金融机构新增贷款、企业定货指数、房地产业土地购置面积、开发面积等。同步指标(又称一致指标)是指其达到高峰或低谷的时间与总体经济出现高峰或低谷的时间大致相同的指标。同步指标可描述总体经济的运行轨迹,确定总体经济运行的高峰或低谷位置。它是分析现实经济运行态势的重要指标。主要的经济同步指标有:国内生产总值、工业总产值、社会消费品零售总额等。滞后指标(又称落后指标)是指其高峰或低谷出现的时间晚于总体经济出现高峰或低谷的时间的指标。它有助于分析前一经济循环是否已结束,下一循环将会如何变化。滞后指标一般有:财政收入、工业企业实现利税总额、城市居民人均可支配收入等。

87

图4-4宏观经济预测图

需求分析

结合宏观经济预测实际业务划分,本期建设主要有以下模块组成:

(1)宏观经济预测数据采集

宏观经济预测数据来源于各处室统计的数据,部分处室的数据在平台上直接获取,如“三新”统计、文化产业统计,其他部门的数据汇总结果在一期提供数据导入接口。 (2)宏观经济统计指标深度汇总模块

在现有经济预测统计制度基础上,按照GDP,生产三大行业,消费投资,居民收入等相关数据进行的交叉汇总分析。 (3)宏观经济预判

88

基于经济数据模型实现对历史数据及当前数据的预判,主要用到时间序列分析、回归分析、神经网络模型、随机森林回归、支持向量回归等预测模型,考虑到季节性因素及政策性因素进行宏观经济预测及预警。 建设方案

1.宏观经济预测数据采集模块

为保证以上目标实现,大数据平台在数据对接时实现以下功能。

a)搭配ETL抽取工具:ETL具备可视化展示功能,此工具可针对不同系统进行数据抽取操作。

b)数据存储规范及操作手册:在进行ETL工具开发同时,开发设计人员需提供完整的操作说明手册,使用人员严格按照手册进行操作。

c)异常数据处理功能:为保证数据抽后数据符合大数据平台数据规范,数据抽取后对脏数据、冗余数据进行加工处理,方便后续分析人员使用及相应指标。 2. 宏观经济统计指标深度汇总模块 建设目标

根据XX省委省政府进行宏观经济决策的实际需求,结合历史数据及当前数据,实现对主要宏观经济指标的月度、季度和年度指标进行汇总分析,主要指标包括CPI、PPI、GDP、失业率、财政支出、财政收入、居民收入等,统计结果以界面形式展示

89

分析维度:

地区、产业分类、产品分类、产品特点(如产量是否受时间、地点因素干扰)等 分析指标:

物价、货运量、客运量、工业能耗、生产总值、销售额、当月收入增加值、年累计增加值、居民收入增长率等 展现方式:

a)界面自动化报表展现 b)拖拽式报表自助取数 c)图形化展示 3:经济指标预测:

对各指标进行监测,同时也将各组指标进行综合,对综合指标进行监测;

对全省经济运行状况进行监测,结合全国乃至全球经济发展背景,指标(指数)运行图和结果分析报告结合展示。

3:预警展现方式:

经济预警信息通过红绿灯方式展示:红(过热)、黄(趋热)、绿(正常)、浅蓝(趋冷)、蓝(冷)灯的标识,对用于预警监测的指标和各综合指数周期波动状况发出预警信号,通过观察信号的变动情况,捅死结合趋势图等其他图形协助分析人员查证预警原因,并判断未来经济增长的趋势。

系统适用性:

90

系统提供若干个适用性较强的预测模型,用于及时满足临时增加的预测需求,对于常规的宏观经济指标,分别建立具有针对性的预测模型。预测模型分为两类,一类是基于时间序列分析和回归分析的常规预测模型,模型具有具体表达式,便于经济解释;另一类是基于机器学习的预测模型,如神经网络模型、随机森林回归、支持向量回归等,这类模型没有具体的模型表达式,但预测结果往往更加准确。

4:预测准确性验证:

预测模型中应该尽可能全面使用大数据平台上的各种数据,包括原始数据和汇总数据,确保预测结果的准确性和时效性。模型的预测精度通过历史数据进行检验,达到可以接受的精度。

由于预测模型的复杂性,该系统中的模型需要定期维护,确保预测结果的准确性。

4.4 应用系统配套工具

1、分类挖掘与计算系统

该系统是集数据的分类、汇总、计算为一体的数据分析系统,

是建立其他应用系统的基础。该系统从现有的数据中获取所需要的特征指标,通过净化、推导、转换、变换、缩减等技术手段实现数据的分类挖掘和计算。

2、数据展现系统

该系统是集各种统计指标计算、统计报表编制和统计图形制作、输出、上报为一体的数据输出系统。该系统的展现界面应直观简

91

洁、美观大方、操作简便。该系统的主要功能如下:

(1) 数据查询功能。该系统可以灵活设定查询条件,快速

查找符合条件的记录,并输出相应的统计报表,譬如,通过设置查询条件,可以快速地输出XX市2016年3月规模以上工业企业的统计报表,其中包括企业名称和销售收入等各种信息。该系统还可以支持模糊查询,提供关联跳转功能,支持从一个明细表的数据区中,跳转到另一个明细表或者查询结果集。该系统还应该可以对查询结果进行排序、分组求和等操作,并根据实际需要输出多种类型的分类统计报表。

(2)基本统计指标的计算功能。该系统应该具有基本统计指标的计算功能,如根据截面数据计算有关指标的最小值、最大值、平均数、分位数、方差和标准差等,根据时间序列数据计算增长速度和发展速度等指标,并根据需要输出相应的统计报表。

(3)图形展示功能 。统计报表和查询结果可以方便地用图形进行展示,直观地显示发展趋势、各项目占比、指标间的相关关系、时间和空间分布等信息。在图形上也可以快速的进行各种OLAP分析操作,绘制出总指标所包含的子指标图形。在OLAP模型里,可以方便地增加、减少维度,无需重新生成立方体等耗时的操作,降低系统维护的难度。

(4)与office 的集成及导出功能 。所有数据表格和图形,可以脱机查看;可以导出到office办公软件里进行编辑。支持常见格式(doc、xls、cvs、html、xml、txt等)的导出。与Office集成,可以在Office中交互式查看多维数据集,具有离线浏览交互式数据报表功能。

92

第五章 系统安全设计方案

大数据统计平台主要处理统计数据,数据资源机密性级别非常高。因此,大数据统计平台的安全策略显得尤为重要。安全策略是一个系统工程,其主要包括:区块链数据安全、互联网接入安全、集群系统安全,这三部分并不是孤立的,而是相互渗透、穿插,互为补充。保证系统在运营过程中管理的各种资料的安全,保证系统与其他相关系统信息交换过程的安全;保证系统业务管理体系的安全。

5.1 区块链的数据安全

5.1.1区块链描述

区块链是一种分布式环境下的具有抗干扰能力的内容共识算法的实现技术。其中,分布式环境是区块链技术的适用环境,指不需要统一中心节点进行消息分发、任务分配和冲突协调的系统环境;抗干扰能力是区块链技术的重要功能,指能够在一定程度上抵抗部分恶意参与者对整个系统的蓄意破坏和攻击,保证系统正常运转;内容共识是区块链技术的核心目标,指能够确保系统所有参与者对各自拥有的数据内容达成一致,这里的数据内容是指数据记录的内容、顺序、历史和权属等。

利用区块链的去中心特征:对于现行的中心化系统,区块链技术能够降低对中心节点的依赖,减轻中心节点负担,从而整体

93

上提高系统运行效率。

5.1.2区块链数据保障

图5-1 区块链数据保障逻辑图

上图展示了节点1内的数据块5被恶意用户修改后,由于区块的寻址算法HASH值是跟内容相关的,内容的改变既会导致寻址地址的改变,数据块5以后的数据都带来不可访问,从而被数据用户感知。

基于区块链技术的元数据库唯一能够对数据进行修改的行为就是所有8个节点同意回滚至某个历史数据快照点,因此所带来的安全等级相比传统集中式数据库会有数量级的提升,同时被恶意攻击概率随着节点数量的增加而显著降低。

5.2 互联网接入安全

网络安全是大数据统计平台安全体系中的关键,应根据大数据统计平台网络结构情况,利用防火墙和路由器ACL访问控制技术、网络物理隔离和VLAN等技术,保障大数据统计平台互

94

联网接入安全主要通过应用系统防护及互联网传输安全两个措施。

大数据统计平台应支持使用HTTP over SSL/TLS方式实现Web接入,提供对SSL V3.0和TLS V1.0版本的支持。服务器应关闭不安全的SSL V2.0协议。服务器应支持由客户端发起的安全密钥重新协商机制,同时关闭由客户端发起的传统不安全的密钥重新协商机制。

5.3 集群系统安全

5.3.1主机安全

主机是整个系统运行的基础硬件平台,要采取冗余备份措施,不但可以相互备份,还可以做到均衡负载。主机的备份方式有热备、互备、集群三种。

1) 热备方式:主机中某一节点充当备份机,不承担任何关键

业务应用。当其它节点发生异常时,故障节点的应用自动切换到备份节点;

2) 互备方式:多个节点同时运行不同的应用进程。某个节点

发生故障时,应用进程自动切换到其它节点上,各节点之间互为备份,使故障不会影响到整个应用系统的运行;

3) 集群方式:全部应用与并行数据库配合,同时运行在所有

节点上。当某一节点发生故障时,无须将应用进行切换。

95

5.3.2操作系统安全

操作系统的安全是数据安全和网络安全的基础。操作系统应提供资源权限划分、访问控制和日志审计等手段,保护信息资源不被非法访问和使用。

5.4 数据备份方案

5.4.1备份策略

数据存储、备份、容灾系统的设计和部署策略如下: (1)对于业务重要数据必须采用数据库级的高可用、高性能模式,以避免硬件和操作系统的单点故障引发的问题;

(2)在数据库部署上能够实现出现逻辑错误时(数据库误操作或黑客攻击造成的数据错误),可把备份数据恢复到受损服务器,把出现逻辑错误之前的数据找回来,恢复到生产环境中;

(3)考虑业务平台现状及增长需要,在服务器的选型和应用部署的设计上全面考虑性能、安全、稳定、可靠等重要因素,不能出现单点失效的安全隐患;

(4)数据库服务器等主要设备考虑到以太网卡可能出现的连接不牢靠的安全问题,采用光纤直连核心交换机的连接方式,增加系统的可靠性。

96

5.4.2分布式系统备份

数据通过NameNode、DataNode、HBase的HA机制确保平台数据稳定、可靠,数据通过3备份机制实现数据多副本存储,确保数据的安全。 5.4.3负载均衡

利用服务器负载均衡技术,有效地解决数据流量过大、网络负荷过重的问题,基于其灵活多样的均衡策略把数据流量合理地分配给服务器群内的服务器共同负担,避免服务器单点故障,实现应用服务级的备份,同时实现在不需额外开支的情况下达到较高的性能要求。每个主机运行一个所需服务器程序的独立拷贝,负载均衡将把工作负载合理的分配在这两台服务器上。

97

第六章 项目招标方案

6.1招标范围

本项目招标范围包括服务、设备、软件等项内容。服务包括咨询、设计、集成、监理;设备包括网络设备、服务器和计算机、存储设备、安全设备等;软件包括系统软件、应用软件、安全软件。

6.2评审办法建议

6.2.1评审过程 (1)应答评审

由评审委员会负责对全部应答文件中的相关内容进行评审。评审按照以下程序进行:

1. 对全部应答文件进行初步评审,检查应答文件是否完全满足比选文件要求;初步评审分为形式审查、资格审查和响应性审查,初步评审中有一项不符合评审标准的,将做否决应答处理。初步审查内容及标准如下:

序号 评审内容 评审标准 大数据统计平台标书中是否包含有效的营营业 业执照,且营业执照与申请名称是否一致(如已完成“三证合一”登记制度改革的,需提供由工商部门核发的已加载法人和其他98

1 执照

组织统一社会信用代码的营业执照); 大数据统计平台标书中是否包含有效的组组织 机构 织机构代码证,且组织机构代码证与申请名称是否一致(如已完成“三证合一”登记制度改革的,需提供由工商部门核发的已加载法人和其他组织统一社会信用代码的营业执照); 大数据统计平台标书中是否包含有效的税务登记证及一般纳税人资格证明材料,且税税务 务登记证名称是否与申请名称一致(如已完成“三证合一”登记制度改革的,需提供由工商部门核发的已加载法人和其他组织统一社会信用代码的营业执照和一般纳税人资格证明材料); 大数据统计平台应答文件中是否包含有效法人 的法人授权委托书,法定代表人身份证扫描授权 2 代码 证 3 登记 证 4 委托 书 件和授权委托人身份证扫描件;纸质版授权委托书是否有法定代表人及授权委托人签字并加盖单位公章。 5 签字、 盖章 1、应答文件中“应答函、法人代表人身份证明、法定代表人授权书、应答声明书、合同99