统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案 下载本文

变化的、仅能处理一遍等特点。分布式内存流数据库能够自动优化Pipeline,具有容错、可重复和高可用性特征的复杂数据处理工作负载、确保资源可用性,管理作业间的从属性、不必担心重试瞬时失效或超时的单个任务,还可以做到侦测问题并将故障报告给系统等问题。提供基于时间的窗口和基于事件数量的窗口来呈现滚动式窗口和滑动窗口两种模式,基于滑动窗口的数据流模型对于处理概率数据、不确定数据及模糊数据等,有着十分重要的作用。同时,分布式内存流数据库所拥有着优秀数据整合能力,提供对流动的数据和相对“静态”的数据,比如状态数据的集成。

(3)SQL联邦查询

平台提供SQL联邦查询技术,通过该技术增强功能将使客户机能够访问和集成数据,能够专门计算各种关系型(Oracle、Mysql等数据库)和非关系型数据源。SQL联邦查询具备有以下的特性:

1.透明性。SQL联邦查询对用户掩盖了底层数据源的差异、特

质和实现。最理想的情况是,它使一组联邦数据源对用户而言象是一个系统。用户不需要知道数据是以哪种物理方式存储的,或者数据是否被分区或被复制;用户应该看到一个统一的接口,包括单一的一组错误代码(错误代码透明性)。SQL联邦查询提供了所有这些特性,使得在编写应用程序时就好象所有数据都位于一个数据库中,尽管事实上,数据可能存储在异构的数据源集合

44

中。

2.异构性。SQL联邦查询可以异构是指各数据源之间的差异程

度。数据源在许多方面可以不同。它们可以运行在不同的硬件上,可以使用不同的网络协议,以及使用不同的软件来管理它们的数据存储。它们可能具有不同的查询语言、不同的查询能力甚至不同的数据模型。它们可能非常类似于这样两个 Oracle 实例:一个运行 Oracle 8i,另一个运行 Oracle 9i,并且模式可能相同或者不同。SQL联邦查询可以容纳所有这些差异,将上述这些系统封装在一个无缝的透明联邦体中。

3.优化的性能。 SQL联邦查询优化器是关系数据库管理系统

的组件,它决定执行每条查询的最佳方式。关系查询是非过程化的,每个关系运算符通常有几种不同的实现,而且在执行一条查询时,可供选择的运算符的可行顺序有许多种。虽然一些优化器使用启发式规则来选出一种执行策略,但联邦数据库考虑各种可能的策略,对每种策略可能的成本建模,然后选出一种成本最低的策略。

(4)标签搜索引擎

标签搜索引擎可以周期性地监控信息变化情况,对发生变化的信息自动建立索引,能够实现针对内容的全文检索以及针对各类属性的特征检索。主要通过Solr、Elasticsearch和分布式内存数据库紧密结合实现信息检索。

标签搜索引擎提供如下检索能力:

45

1.智能检索。智能检索包括智能中文分词(采用了上万条歧义

排除规则)、广义同义词检索、主题词典控制检索以及相似性检索。

2.相关度排序和时间排序。检索系统提供相关度排序和时间排

序两种有效的排序输出方式,相关度排序以检索词与内容的相关性为依据对检索结果排序;时间排序则保证把最新的内容优先输出。

3.增量更新。检索系统采用增量更新方式对内容进行更新,即

每次检查内容的变化时,只对新添加或发生变化的内容进行更新,索引性能明显优于只能进行完全更新的系统,并且把对系统本身的访问压力降至最小。

4.开放性。检索系统把内容进行各种自动标引后,统一存储在

数据库中(内容检索服务器或数据库),使这些信息成为可以再开发利用的资源。

随着统计业务信息资源的激增,传统基于关键字的信息检索方法因返回的结果集不够精炼,与用户需求偏差大使得信息检索查准率降低。利用集体智慧,以自由化的、合作共享的组织形态,允许用户自由地描述资源,增强了标签资源间的相关性和用户间的交互性,提高个性化信息检索服务的准确性和专业性提供一条可行途径。

46

图3-12标签搜索流程图

3.6.2数据算法提速

大数据统计平台操作的是统计业务的数据,对于部分实体数据为了保护自身的利益将数据进行处理上报。因此通过有效的数据挖掘技术手段来甄别数据的真实性显得尤为重要。

图3-13数据挖掘方法

(1)分布式聚类算法

47