数据挖掘作业南京廖华答案网

数据挖掘作业下载本文

文章发布时间 : 2025/8/16 15:22:23星期六

第五章概念描述：特征化与比较一、填空题

（1）特征化、区分

（2）数据收集、维相关分析、同步概化、导出比较的表示（3）描述性挖掘和预测性挖掘

（4）信息增益、Gini索引、不确定性和相关系数（5）五数概括、中间四分位数区间、标准差

二、单选题（1）C；（2）D；（3）C；（4）B；（5）B

三、多选题（1）BD；（2）ABD；（3）AD

四、简答题

（1）简述类比较的过程。答：类比较的过程一般包括以下四个步骤：

(1)数据收集

通过查询处理收集数据库中相关的数据，并将其划分为一个目标类和一个或多个对比类；

(2)维相关分析

使用属性相关分析方法，使我们的任务中仅包含强相关的维； (3)同步概化

同步的在目标类和对比类上进行概化，得到主目标类关系/方体和主对比类关系/方体；

(4)导出比较的表示

用可视化技术表达类比较描述，通常会包含“对比”度量，反映目标类与对比类间的比较。

（2）简述面向属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。答：面向属性归纳的基本思想是：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。聚集通过合并相等的广义元组，并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式，如图表或规则，提供用户。

使用属性删除的情况：如果初始工作关系的一个属性上有大量的不同值，但是（1）在此属性上没有概化操作符，或（2）它的较高层概念用其他属性表示；

使用属性概化的情况：如果初始工作关系的一个属性上有大量的不同值，并且该属性上存在着概化操作符。

（3）简述概念描述的属性相关分析的基本步骤。答：（1）数据收集：通过查询处理，收集目标类和对比类的数据；

（2）使用保守的AOI进行预相关分析：这一步识别属性和维的集合，选择的相关性度量用于他们；

（3）使用选定的相关分析度量删除不相关和弱相关属性：使用选定的相关分析度量，评估候选关系中的每个属性；

（4）使用AOI产生概念描述：使用一组不太保守的属性概化临界值进行AOI。

（4）简要叙述概念描述和OLAP之间的主要区别。答：两者的主要区别有：

（1）概念描述可以处理复杂数据类型的属性及其聚集，而实际使用的OLAP系

统中，维和度量的数据类型都非常有限（非数值型的维和数值型的数据），表现为一种简单的数据分析模型。

（2） OLAP是一个由用户控制的过程，而概念描述是一个更加自动化的过程。

（5）为什么进行属性相关分析？答：数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程，这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少，则造成挖掘的描述结果不正确；属性太多，浪费计算、淹没知识。通过属性相关分析，可以更容易地发现属性之间的相关性，滤掉统计上不相关或弱相关的属性，保留对手头数据挖掘任务最相关的属性。

（6）简述进行概念描述时，面向数据库的方法和机器学习的主要区别。答：面向数据库的方法指的是面向大型数据库的概念描述的概化方法，使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例，在概念集或标定训练样本集上进行，通过检验这些集合在学习中导出关于描述类的假定。（7）什么是概念描述的增量挖掘？答：增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果，而不是重新从修正过的数据库中进行挖掘而得到结果。

第六章大型数据库中的关联规则挖掘一、填空题

（1）支持度和置信度（2）连接和剪枝

（3）包含项集的事务数

（4）找出所有频繁项集、由频繁项集产生强关联规则（5）布尔关联规则、量化关联规则

（6）频繁项集的所有非空子集也必须是频繁的

（7）量化属性的静态离散化、量化关联规则、基于距离的关联规则（8）反单调的、单调的、简洁的、可转变的、不可转变的（9）频繁谓词集

二、单选题（1）A；（2）A；（3）B；（4）；（5）C

三、多选题（1）BD；（2）BC；（3）ABD

四、简答题

（1）对于具有递减支持度的多层关联规则挖掘，分别都有哪些搜索策略？各有什么特点？答：具有递减支持度的多层关联规则挖掘中使用的搜索策略包括：

逐层独立：完全的宽度搜索，没有频繁项集的背景知识用于剪枝。考察每一个节点，不管其父节点是否频繁。特点是条件很松，可能导致在低层考察大量非频繁的项，找出一些不重要的关联；

层交叉k-项集过滤：一个第i层的k-项集被考察，当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强，有些有价值的模式可能被该方法过滤掉；

层交叉单项过滤：一个第i层的项被考察，当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

（2）给出一个例子，表明强关联规则中的项可能实际上是负相关的。答：例如教材《数据挖掘：概念与技术》中例6.6和表6.4。

（3）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。答：对所有层都使用一致的最小支持度，优点在于：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索；缺点在于：最小支持度值设置困难，如果设置太高，将丢掉出现在较低抽象层中有意义的关联规则，如果设置太低，会在较高层产生太多的无兴趣的规则。（4）什么是简洁性约束？答：一个约束被称为简洁的，如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束，我们可以在计数前进行剪枝，从而避免产生－测试方式的过大开销。

第七章分类和预测一、填空题

（1）准确性、有效性和可伸缩性（2）先剪枝、后剪枝

二、单选题（1）C；（2）B；（3）C

三、简答题

（1）简述判定树分类的主要步骤。答：首先是生成判定树。分为2个步骤：

（1）归纳生成判定树。开始时，所有的训练样本都在根节点，然后递归的通过

选定的离散值属性，来划分样本，直至满足停止条件。

（2）树剪枝。许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测

和剪去这种分枝

接下来在判定树的使用中，对于某一未知样本，通过将样本的属性值与判定树相比较来判断其类别归属。

（2）在判定树归纳中，为什么树剪枝是有用的？答：当判定树创建时，由于数据中的噪声和孤立点，许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常，这种方法使用统计度量，剪去最不可靠的分枝，这将导致较快的分类，提高树独立于测试数据正确分类的可靠性。（3）为什么朴素贝叶斯分类称为“朴素”的？简述朴素贝叶斯分类的主要思想。答：朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时，做了类条件独立的朴素假定。贝叶斯分类的主要思想参考教材《数据挖掘：概念与技术》7.4.2小节。

（4）请简述判定树归纳算法的基本策略。答：

1. 树以代表训练样本的单个节点开始

2. 如果样本都在同一个类，则该节点成为树叶，并用该类标记

3. 否则，算法使用基于熵的度量——信息增益作为指导信息，选择能够最好的将

样本分类的属性；该属性成为节点的“测试”或“判定”属性。（使用分类属性） 4. 对测试属性每个已知的值，创建一个分支，并以此划分样本

5. 算法使用同样的过程，递归的形成每个划分上的样本判定树。一旦一个属性出

现在一个节点上，就不在该节点的任何子节点上出现 6. 递归划分步骤停止的条件有：（1）给定节点的所有样本属于同一类（2）没有剩

余属性可以用来进一步划分样本——使用多数表决（3）没有剩余的样本

（5）对分类和预测方法进行比较和评估的标准都有哪些？

答：（1）导出分类法后，再使用训练数据评估分类法，这种方法可能错误的导致乐观的估计。

（2）保持方法：给定数据随机划分为两个集合：训练集(2/3)和测试集(1/3)。训练集导出分类法，测试集对其准确性进行评估。随机子选样是保持方法的一个变形，将保持方法重复k次，然后取准确率的平均值。（3）k-折交叉确认：初始数据被划分为k个不相交的，大小大致相同的子集S1,S2?Sk。进行k次训练和测试，第i次时，以Si做测试集，其他做训练集。准确率为k次

Word文档下载：数据挖掘作业.doc

搜索更多:数据挖掘作业