第五章 概念描述:特征化与比较 一、填空题
(1)特征化、区分
(2)数据收集、维相关分析、同步概化、导出比较的表示 (3)描述性挖掘和预测性挖掘
(4)信息增益、Gini索引、不确定性和相关系数 (5)五数概括、中间四分位数区间、标准差
二、单选题 (1)C;(2)D;(3)C;(4)B;(5)B
三、多选题 (1)BD;(2)ABD;(3)AD
四、简答题
(1)简述类比较的过程。 答:类比较的过程一般包括以下四个步骤:
(1)数据收集
通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类;
(2)维相关分析
使用属性相关分析方法,使我们的任务中仅包含强相关的维; (3)同步概化
同步的在目标类和对比类上进行概化,得到主目标类关系/方体 和 主对比类关系/方体;
(4)导出比较的表示
用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较。
(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。
使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;
使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。
(3)简述概念描述的属性相关分析的基本步骤。 答:(1)数据收集:通过查询处理,收集目标类和对比类的数据;
(2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们;
(3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性;
(4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。
(4)简要叙述概念描述和OLAP之间的主要区别。 答:两者的主要区别有:
(1) 概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系
统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型。
(2) OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。
(5)为什么进行属性相关分析? 答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。
(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。 答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。 (7)什么是概念描述的增量挖掘? 答:增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。
第六章 大型数据库中的关联规则挖掘 一、填空题
(1)支持度和置信度 (2)连接和剪枝
(3)包含项集的事务数
(4)找出所有频繁项集、由频繁项集产生强关联规则 (5)布尔关联规则、量化关联规则
(6)频繁项集的所有非空子集也必须是频繁的
(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则 (8)反单调的、单调的、简洁的、可转变的、不可转变的 (9)频繁谓词集
二、单选题 (1)A;(2)A;(3)B;(4);(5)C
三、多选题 (1)BD;(2)BC;(3)ABD
四、简答题
(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点? 答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;
层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;
层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。
(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。 答:例如教材《数据挖掘:概念与技术》中例6.6和表6.4。
(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。 答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。 (4)什么是简洁性约束? 答:一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生-测试方式的过大开销。
第七章 分类和预测 一、填空题
(1)准确性、有效性和可伸缩性 (2)先剪枝、后剪枝
二、单选题 (1)C;(2)B;(3)C
三、简答题
(1)简述判定树分类的主要步骤。 答:首先是生成判定树。分为2个步骤:
(1) 归纳生成判定树。开始时,所有的训练样本都在根节点,然后递归的通过
选定的离散值属性,来划分样本,直至满足停止条件。
(2) 树剪枝。许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测
和剪去这种分枝
接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比较来判断其类别归属。
(2)在判定树归纳中,为什么树剪枝是有用的? 答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。 (3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。 答:朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时,做了类条件独立的朴素假定。贝叶斯分类的主要思想参考教材《数据挖掘:概念与技术》7.4.2小节。
(4)请简述判定树归纳算法的基本策略。 答:
1. 树以代表训练样本的单个节点开始
2. 如果样本都在同一个类,则该节点成为树叶,并用该类标记
3. 否则,算法使用基于熵的度量——信息增益作为指导信息,选择能够最好的将
样本分类的属性;该属性成为节点的“测试”或“判定”属性。(使用分类属性) 4. 对测试属性每个已知的值,创建一个分支,并以此划分样本
5. 算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出
现在一个节点上,就不在该节点的任何子节点上出现 6. 递归划分步骤停止的条件有:(1)给定节点的所有样本属于同一类(2)没有剩
余属性可以用来进一步划分样本——使用多数表决(3)没有剩余的样本
(5)对分类和预测方法进行比较和评估的标准都有哪些?
答:(1)导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计。
(2)保持方法:给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)。训练集导出分类法,测试集对其准确性进行评估。随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值。 (3)k-折交叉确认:初始数据被划分为k个不相交的,大小大致相同的子集S1,S2?Sk。进行k次训练和测试,第i次时,以Si做测试集,其他做训练集。准确率为k次