数据挖掘作业 下载本文

B、命名规则的不一致

C、与其他已有数据不一致而被删除

D、在输入时,有些数据因为得不到重视而没有被输入

四、简答题

(1)常用的数值属性概念分层的方法有哪些?

(2)典型的生成分类数据的概念分层的方法有哪些?

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

(4)常见的数据归约策略包括哪些?

第四章 数据挖掘原语、语言和系统结构 一、填空题

(1)概念分层有四种类型,分别是: 、 、 和

(2)常用的四种兴趣度的客观度量是: 、 、 和

(3)同时满足 和 的关联规则称为强关联规则。

二、单选题

(1)以下DMQL片断:

mine associations as buyingHabits

matching P(X : customer, W) ∧ Q(X, Y) => buys (X, Z) 所指定的挖掘知识类型是:

A、特征化 B、区分 C、关联 D、分类 (2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?

A、不耦合 B、松散耦合 C、半紧密耦合 D、紧密耦合

三、多选题

(1)以下哪些OLAP操作是和概念分层紧密相关的?

A、上卷 B、切片 C、下钻 D、切块

四、简答题

(1)定义数据挖掘任务的原语,主要应该包括哪些部分? (2)为什么需要数据挖掘原语和语言来指导数据挖掘?

(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。

(4)数据挖掘的GUI可能包含哪些部分?

第五章 概念描述:特征化与比较 一、填空题

(1)概念描述由 和 组成。

(2)一般来说,进行类比较的过程应该包括以下几个步骤: 、 、 和

(3)从数据分析的角度看,数据挖掘可以分为两类: 和

(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括: 、 、 和 (5)数据离散度的最常用度量包括: 、 和

二、单选题 (1)类比较的过程中,我们在哪个步骤得到主目标类 关系/方体 和 主对比类 关系/方体?

A、数据收集 B、维相关分析 C、同步概化 D、导出比较的表示 (2)哪种图形显示方法常用于描述两个变量间的依赖模式?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (5)中心趋势度量模(mode)是指

A、算术平均值 B、数据集中出现频率最高的值 C、最大值 D、最小值

三、多选题

(1)下面哪些是常用的数据概化方法?

A、离散化 B、数据立方体(OLAP技术) C、判定归纳树 D、面向属性的归纳 (2)使用数据立方体方法进行数据概化的优点包括:

A、数据概化的一种有效实现 B、可以计算各种不同的度量值

C、受数据类型和度量类型的约束比较少

D、概化和特征分析通过一系列的数据立方体操作完成,简单高效 (3)以下哪些是属于中心趋势的度量

A、平均值 B、标准差 C、五数概括 D、中位数

四、简答题

(1)简述类比较的过程。

(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

(3)简述概念描述的属性相关分析的基本步骤。 (4)简要叙述概念描述和OLAP之间的主要区别。 (5)为什么进行属性相关分析?

(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。 (7)什么是概念描述的增量挖掘?

第六章 大型数据库中的关联规则挖掘 一、填空题

(1)关联规则挖掘中,两个主要的兴趣度度量是: 和 (2)Aprior算法包括 和 两个基本步骤 (3)项集的频率是指

(4)大型数据库中的关联规则挖掘包含两个过程: 和 (5)根据规则中所处理的值类型,关联规则可分为: 和 (6)Apriori性质是指: (7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 、 和

(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型: 、 、 、 和 (9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是

二、单选题

(1)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (2)支持度(support)是衡量兴趣度度量( )的指标。 A、实用性 B、确定性 C.、简洁性 D、新颖性 (3)置信度(confidence)是衡量兴趣度度量( )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 (4)根据关联分析中所处理的值类型,可以将关联规则分类为:( )

A、布尔关联规则和量化关联规则 B、单维关联规则和多维关联规则 C、单层关联规则和多层关联规则 D、简答关联规则和复杂关联规则 (5)规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个

A、单维关联规则 B、多维关联规则 C、混合维关联规则 D、不是一个关联规则

三、多选题

(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:( )

A、布尔关联规则 B、单层关联规则 C、多维关联规则 D、多层关联规则 (2)根据关联分析中所涉及的数据维,可以将关联规则分类为:( )

A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则 (3)Apriori算法所面临的主要的挑战包括:

A、会消耗大量的内存 B、会产生大量的候选项集 C、对候选项集的支持度计算非常繁琐 D、要对数据进行多次扫描

四、简答题

(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点? (2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。

(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。 (4)什么是简洁性约束?