A.平方欧几里德距离 B.余弦距离
C.直接相似度 D.共享最近邻
56) 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于( A)问题。
A.关联规则挖掘 B.分类与回归 C.聚类分析 D.时序预测
57)以下哪个聚类算法不是属于基于原型的聚类( D )。 A.模糊C均值 B.EM算法
C.SOM D.CLIQUE
58)关于混合模型聚类算法的优缺点,下面说法正确的是( B )。
A.当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。 B.混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。 C.混合模型很难发现不同大小和椭球形状的簇。 D.混合模型在有噪声和离群点时不会存在问题。 59)以下哪个聚类算法不属于基于网格的聚类算法( D )。 A.STING B.WaveCluster
C.MAFIA D.BIRCH
60)一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。 A.概率 B.邻近度
C.密度 D.聚类
61) 舆情研判,信息科学侧重( C ),社会和管理科学侧重突发群体事件管理中的群体心
理行为及舆论控制研究,新闻传播学侧重对舆论的本体进行规律性的探索和研究。 A.舆论的本体进行规律性的探索和研究 B.舆论控制研究
C.互联网文本挖掘和分析技术 D.用户行为分析
62) MapReduce的Map函数产生很多的( C )
A.key
B.value
D.Hash
C.
63) Mapreduce适用于 ( D )
A.任意应用程序
B. 任意可在windows servet2008上运行的程序 C.可以串行处理的应用程序 D. 可以并行处理的应用程序
64) PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的
PageRank越高,那么它就( D )。 A.相关性越高 C.相关性越低 ╳A.一对一 C. 多对多
B.越不重要 D.越重要 B.一对多
D. 多对一
65) 协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对
某一信息的评价,形成系统对该指定用户对此信息的喜好程度( D ),并将这些用户喜欢的项推荐给有相似兴趣的用户。 A. 相似 C.推荐
B.相同 D. 预测
66) 大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达
到撷取、管理、处理、并( B )成为帮助企业经营决策更积极目的的信息。 A.收集 C.规划
B.整理 D.聚集
67) 大数据科学关注大数据网络发展和运营过程中( D )大数据的规律及其与自然和
社会活动之间的关系。 A.大数据网络发展和运营过程 C.规律和验证
B.规划建设运营管理 D.发现和验证
68) 大数据的价值是通过数据共享、( D )后获取最大的数据价值
A.算法共享 C. 数据交换
B.共享应用 D. 交叉复用
69) 社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的
( C ),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。
A.地址 C.情绪
B.行为 D.来源
70) 通过数据收集和展示数据背后的( D ),运用丰富的、具有互动性的可视化手段,
数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。 A.数据收集 C.真相
B.数据挖掘
D. 关联与模式
71) CRISP-DM 模型中Evaluation表示对建立的模型进行评估,重点具体考虑得出的结果是
否符合( C )的商业目的。 A.第二步 C.第一步
B.第三步 D.最后一步
72) 发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持
度和( D ),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则 A. 最小兴趣度 C. 最大支持度
B. 最小置信度 D. 最小可信度
73) 规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为
( B )。 A. 置信度 C. 兴趣度
B.可信度
D. 支持度
74) 如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作( C )
A. 极大匹配 C完美匹配
B.二分匹配 D.极小匹配
75) 只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以
及( D )的关键要素。 A.提高消费
B.提高GDP
C.提高生活水平 D. 创造消费者盈余
76) 个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助
( D )为其顾客购物提供完全个性化的决策支持和信息服务。 A.公司
B.各单位
C.跨国企业 D. 电子商务网站
77) 云计算是对( D )技术的发展与运用
A.并行计算 B.网格计算 C.分布式计算 D.三个选项都是
78) ( B )是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运
算的软件架构。
A.GFS B.MapReduce C.Chubby D.BitTable
79) 在Bigtable中,( A )主要用来存储子表数据以及一些日志文件
A. GFS B. Chubby C.SSTable D.MapReduce
二、判断题(共40题)
1) 分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。 (对)
2) 时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所
处时间的不同。(错)
3) 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数
据等任务。 (对)
4) 对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏
值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。(对)
5) 神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需
要很长的训练时间,因而对于有足够长训练时间的应用更合适。(对)
6) 数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;
第二步,使用模型进行分类。(错)
7) 聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 (对) 8) 决策树方法通常用于关联规则挖掘。 (错)
9) 数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)
以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、