第三章 数据预处理 一、填空题
(1) 数据清理、数据集成、数据变换、数据规约 (2) 分箱、聚类、计算机和人工检查结合、回归 (3) 整合不同数据源中的元数据,实体识别问题 (4) 沿概念分层向上概化 (5) 有损压缩,无损压缩
(6) 线性回归方法,多元回归,对数线性模型 (7) 五数概括、中间四分位数区间、标准差
二、单选题 (1)C;(2)A;(3)D;(4)C;(5)C;(6)B
三、多选题 (1)ABC;(2)BD;(3)ABC;(4)BD;(5)ACD
四、简答题
(1)常用的数值属性概念分层的方法有哪些? 答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)典型的生成分类数据的概念分层的方法有哪些? 答:典型的生成分类数据的概念分层的方法包括:
(1)由用户或专家在模式级显示的说明属性的部分序; (2)通过显示数据分组说明分层结构的一部分。
(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。
(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 答:处理空缺值的方法有:
(1) 忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),
当每个属性缺少值的百分比变化很大时,它的效果非常差。
(2) 人工填写空缺值。这种方法工作量大,可行性低
(3) 使用一个全局变量填充空缺值:比如使用unknown或-∞ (4) 使用属性的平均值填充空缺值
(5) 使用与给定元组属同一类的所有样本的平均值
(6) 使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于
推断的方法
(4)常见的数据归约策略包括哪些? 答:数据归约策略包括:
(1) 数据立方体聚集 (2) 维归约 (3) 数据压缩
(4) 数值归约
(5) 离散化和概念分层产生
第四章 数据挖掘原语、语言和系统结构 一、填空题
(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层 (2)简单性、确定性、实用性、新颖性 (3)最小置信度临界值、最小支持度临界值
二、单选题 (1)C;(2)D
三、多选题 (1)AC
四、简答题
(1)定义数据挖掘任务的原语,主要应该包括哪些部分? 答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:
说明数据库的部分或用户感兴趣的数据集; 要挖掘的知识类型;
用于指导挖掘的背景知识; 模式评估、兴趣度量; 如何显示发现的知识。
(2)为什么需要数据挖掘原语和语言来指导数据挖掘? 答:如果不使用数据挖掘原语和语言来指导数据挖掘
(1) 会产生大量模式(重新把知识淹没) (2) 会涵盖所有数据,使得挖掘效率低下 (3) 大部分有价值的模式集可能被忽略
(4) 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感
兴趣。
(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。 答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能