利用工商信息、企业基本信息、税务信息等记录,我们可以构建出一个网络拓扑结构,以构建企业的相应属性标签,属性标签可以反向标记回企业,从而企业具有群体属性。
图3-14企业聚类图
聚类分析时数据挖掘的一个重要分支,目标是将数据对象分组成为多个类或簇,在同一个类中的对象之间有较高的相似度,而不同类中的对象差别较大。早期的聚类多采用无监督方式,但随着数据挖掘领域的扩展,很多的行业问题,需要有监督的数据挖掘技术。
图3-15基于内存计算的分布式聚类算法
48
算法目标是模块度函数,该函数定义为簇内实际连接数目与随机连接情况下蔟内期望连接数目之差,用来衡量企业项目的划分质量,整个过程自底向上进行。
图3-16 聚类算法模块图
图3-17 聚类算法模块图
内存计算(In-Memory Processing),实质上就是CPU直接
49
从内存而非硬盘上读取数据,并对数据进行计算、分析。尤其是对于复杂的模型,往往需要较多迭代次数才能收敛,而基于磁盘的分析方式(Hadoop上的Mahout)则IO开销巨大。 (2)基于内存计算的分布式分类算法
分类问题是机器学习中的经典问题,文本、语音、图像等各种领域都有广泛应用。拟针对具备核密度技术的分类方法实现基于内存的分布式算法。所参考的方法是DLR:Density-based Logistic Regression (Chen et al. KDD 2013)
图3-18 分类算法模块图
(3)高维度异构数据的降维算法
数据和维数之间往往有相关性,用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。
50
图3-19高纬度异构数据的降维算法
3.7大数据存储设计
3.7.1数据分级存储 (1)数据分级存储原则
数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。
(2)数据融合与分级存储实施
将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。
将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。
51