数据挖掘作业 下载本文

《数据挖掘》作业

第一章 引言 一、填空题

(1)数据库中的知识挖掘(KDD)包括以下七个步骤: 、 、 、 、 、 和

(2) 数据挖掘的性能问题主要包括: 、 和

(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 、 和

(4) 在万维网(WWW)上应用的数据挖掘技术常被称为:

(5) 孤立点是指:

二、单选题

(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:

A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合?

A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3)下列几种数据挖掘功能中,( )被广泛的应用于股票价格走势分析

A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,( )将决定所使用的数据挖掘功能

A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析

A、关联分析 B、分类和预测 C、聚类分析 D、演变分析

(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( )

A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述 (7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( )

A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析 (8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( )

A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述

三、简答题

(1)什么是数据挖掘?

(2)一个典型的数据挖掘系统应该包括哪些组成部分? (3)请简述不同历史时代数据库技术的演化。 (4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘) (5)什么是模式兴趣度的客观度量和主观度量?

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?

(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

第二章 数据仓库和数据挖掘的OLAP技术 一、填空题

(1)数据仓库的多维数据模型可以有三种不同的形式,分别是: 、 和

(2)给定基本方体,方体的物化有三种选择: 、 和

(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别 的四个特征是: 、 、 和 (4)在数据访问模式上,数据仓库以 为主,而日常应用数据库则以 为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是: 、

和 (6)关于数据仓库的设计,四种不同的视图必须考虑,分别是: 、 、

(7)OLAP服务器的类型主要包括: 、 和 (8)求和函数sum()是一个 的函数。

(9)方体计算的主要挑战是 和 之间的矛盾。

二、单选题

(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围 A、1-100M B、100M-10G C、10-1000G D、100GB-数TB (3)存放最低层汇总的方体称为: A、顶点方体 B、方体的格 C、基本方体 D、维 (4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?

A、上卷 B、下钻 C、切块 D、转轴 (5)平均值函数avg()属于哪种类型的度量?

A、分布的 B、代数的 C、整体的 D、混合的

三、多选题

(1)OLAP系统和OLTP系统的主要区别包括( )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据; B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多; D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。 (2)从结构的角度看,数据仓库模型包括以下几类:

A、企业仓库 B、数据集市 C、虚拟仓库 D、信息仓库 (3)数据仓库的三层架构主要包括以下哪三部分?

A、数据源 B、数据仓库服务器 C、OLAP服务器 D、前端工具 (4)以下哪些是数据仓库的主要应用?

A、信息处理 B、互联网搜索 C、分析处理 D、数据挖掘

四、简答题

(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

(2)为什么说数据仓库具有随时间而变化的特征?

(2)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法? (3)请简述几种典型的多维数据的OLAP操作

(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失? (6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(a) 为数据仓库画出雪花模式图。

(b) 由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学

生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。 (c) 如果每维有5层(包括all),如student < major < status < university < all, 该数据

方包含多少方体(包含基本方体和顶点方体)?

(7)在数据仓库中,元数据的主要用途包括哪些? (8)数据仓库后端工具和程序包括哪些?

五、计算题 (1)假定基本立方体有三个维A,B,C,其单元数如下:|A|=100,000,|B|=10,000,|C|=1,000,假定分块将每维分成10部分

a. 请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序; b. 分别求这两个次序下计算二维平面所需要的内存空间的大小。

第三章 数据预处理 一、填空题

(1)进行数据预处理时所使用的主要方法包括: 、 、 和

(2)处理噪声数据的方法主要包括: 、 、 和

(3)模式集成的主要问题包括: 和 (4)数据概化是指: (5)数据压缩可分为: 和 两种类型。

(6)进行数值归约时,三种常用的有参方法是: 、 和

(7)数据离散度的最常用度量是 、 和

二、单选题

(1)数据归约的目的是( )

A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 (2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?

A.数据清理 B.数据集成 C.数据变换 D.数据归约 (3)进行数据规范化的目的是( )

A.去掉数据中的噪声 B.对数据进行汇总和聚集

C.使用概念分层,用高层次概念替换低层次“原始”数据 D.将属性按比例缩放,使之落入一个小的特定区间 (4)数据的噪声是指( )

A、孤立点 B、空缺值 C、测量变量中的随即错误或偏差 D、数据变换引起的错误 (5)那种数据变换的方法将数据沿概念分层向上汇总

A、平滑 B、聚集 C、数据概化 D、规范化 (6)( )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图

三、多选题

(1)下面哪些问题是我们进行数据预处理的原因?

A.数据中的空缺值 B.噪声数据 C.数据中的不一致性 D.数据中的概念分层 (2)下面的度量中,哪些是数据离散度的度量?

A.中位数 B.标准差 C.模 D.中间四分位数区间 (3)数据清理的目的是处理数据中的( )

A、空缺值 B、噪声数据 C、不一致数据 D、敏感数据 (4)下列哪些是数据变换可能涉及的内容?

A、数据压缩 B、数据概化 C、维归约 D、规范化 (5)以下哪些原因可能引起空缺值

A、设备异常

B、命名规则的不一致

C、与其他已有数据不一致而被删除

D、在输入时,有些数据因为得不到重视而没有被输入

四、简答题

(1)常用的数值属性概念分层的方法有哪些?

(2)典型的生成分类数据的概念分层的方法有哪些?

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

(4)常见的数据归约策略包括哪些?

第四章 数据挖掘原语、语言和系统结构 一、填空题

(1)概念分层有四种类型,分别是: 、 、 和

(2)常用的四种兴趣度的客观度量是: 、 、 和

(3)同时满足 和 的关联规则称为强关联规则。

二、单选题

(1)以下DMQL片断:

mine associations as buyingHabits

matching P(X : customer, W) ∧ Q(X, Y) => buys (X, Z) 所指定的挖掘知识类型是:

A、特征化 B、区分 C、关联 D、分类 (2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?

A、不耦合 B、松散耦合 C、半紧密耦合 D、紧密耦合

三、多选题

(1)以下哪些OLAP操作是和概念分层紧密相关的?

A、上卷 B、切片 C、下钻 D、切块

四、简答题

(1)定义数据挖掘任务的原语,主要应该包括哪些部分? (2)为什么需要数据挖掘原语和语言来指导数据挖掘?

(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。

(4)数据挖掘的GUI可能包含哪些部分?

第五章 概念描述:特征化与比较 一、填空题

(1)概念描述由 和 组成。

(2)一般来说,进行类比较的过程应该包括以下几个步骤: 、 、 和

(3)从数据分析的角度看,数据挖掘可以分为两类: 和

(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括: 、 、 和 (5)数据离散度的最常用度量包括: 、 和

二、单选题 (1)类比较的过程中,我们在哪个步骤得到主目标类 关系/方体 和 主对比类 关系/方体?

A、数据收集 B、维相关分析 C、同步概化 D、导出比较的表示 (2)哪种图形显示方法常用于描述两个变量间的依赖模式?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?

A、直方图 B、分位数图 C、散布图 D、LOESS曲线 (5)中心趋势度量模(mode)是指

A、算术平均值 B、数据集中出现频率最高的值 C、最大值 D、最小值

三、多选题

(1)下面哪些是常用的数据概化方法?

A、离散化 B、数据立方体(OLAP技术) C、判定归纳树 D、面向属性的归纳 (2)使用数据立方体方法进行数据概化的优点包括:

A、数据概化的一种有效实现 B、可以计算各种不同的度量值

C、受数据类型和度量类型的约束比较少

D、概化和特征分析通过一系列的数据立方体操作完成,简单高效 (3)以下哪些是属于中心趋势的度量

A、平均值 B、标准差 C、五数概括 D、中位数

四、简答题

(1)简述类比较的过程。

(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

(3)简述概念描述的属性相关分析的基本步骤。 (4)简要叙述概念描述和OLAP之间的主要区别。 (5)为什么进行属性相关分析?

(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。 (7)什么是概念描述的增量挖掘?

第六章 大型数据库中的关联规则挖掘 一、填空题

(1)关联规则挖掘中,两个主要的兴趣度度量是: 和 (2)Aprior算法包括 和 两个基本步骤 (3)项集的频率是指

(4)大型数据库中的关联规则挖掘包含两个过程: 和 (5)根据规则中所处理的值类型,关联规则可分为: 和 (6)Apriori性质是指: (7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 、 和

(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型: 、 、 、 和 (9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是

二、单选题

(1)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (2)支持度(support)是衡量兴趣度度量( )的指标。 A、实用性 B、确定性 C.、简洁性 D、新颖性 (3)置信度(confidence)是衡量兴趣度度量( )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 (4)根据关联分析中所处理的值类型,可以将关联规则分类为:( )

A、布尔关联规则和量化关联规则 B、单维关联规则和多维关联规则 C、单层关联规则和多层关联规则 D、简答关联规则和复杂关联规则 (5)规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个

A、单维关联规则 B、多维关联规则 C、混合维关联规则 D、不是一个关联规则

三、多选题

(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:( )

A、布尔关联规则 B、单层关联规则 C、多维关联规则 D、多层关联规则 (2)根据关联分析中所涉及的数据维,可以将关联规则分类为:( )

A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则 (3)Apriori算法所面临的主要的挑战包括:

A、会消耗大量的内存 B、会产生大量的候选项集 C、对候选项集的支持度计算非常繁琐 D、要对数据进行多次扫描

四、简答题

(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点? (2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。

(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。 (4)什么是简洁性约束?

第七章 分类和预测 一、填空题

(1)通过对数据进行预处理,可以提高分类和预测过程的 、 和

(2)防止分类中的过分适应的两种方法分别是: 和

二、单选题

(1)下面哪种分类方法是属于神经网络学习算法?( )

A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (2)下面哪种分类方法是属于统计学的分类方法?( ) A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (3)下列哪个描述是正确的?( )

A、分类和聚类都是有指导的学习 C、分类是有指导的学习,聚类是无指导的学习 B、分类和聚类都是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习

三、简答题

(1)简述判定树分类的主要步骤。

(2)在判定树归纳中,为什么树剪枝是有用的?

(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。 (4)请简述判定树归纳算法的基本策略。

(5)对分类和预测方法进行比较和评估的标准都有哪些? (6)简述数据分类的两步过程。 (7)简述后向传播分类的优缺点。

四、算法题

(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323

对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155

请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。

age <18 18?23 >23 income student credit_rating class Income student credit_rating class high medium high medium low no yes no yes no fair fair fair excellent excellent no no no yes yes income high medium high medium student credit_rating class no yes no yes fair fair fair excellent yes yes yes yes high high low low no yes yes yes no fair excellent fair fair excellent no yes yes yes no medium

第八章 聚类分析 一、填空题

(1)在数据挖掘中,常用的聚类算法包括: 、 、 、基于网格的方法和基于模型的方法。

(2)聚类分析常作为一个独立的工具来获得 (3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征: 和

(4)许多基于内存的聚类算法所常用的两种数据结构是 和 (5)基于网格的聚类方法的优点是:

(6)孤立点产生的主要原因包括: 和

(7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括: 、 和

二、单选题

(1)下面那种数据挖掘方法可以用来检测孤立点? A.概念描述 B.分类和预测 C.聚类分析 D.演变分析 (2)以下哪个指标不是表示对象间的相似度和相异度

A、Euclidean距离 B、Manhattan距离 C、Eula距离 D、Minkowski距离 (3)以下哪种聚类方法可以发现任意形状的聚类? A、划分的方法 B、基于模型的方法 C、基于密度的方法 D、层次的方法

三、简答题

(1)数据挖掘对聚类分析有哪些要求?

(2)简述基于划分的聚类方法。划分的准则是什么? (3)列举孤立点挖掘的常见应用。

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

a) 不对称的二元变量 b) 标称变量

c) 比例标度型(ratio-scaled)变量 d) 数值型的变量

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。

第九章 电子商务与数据挖掘 一、填空题

(1)Web数据挖掘通常包括 、 和 三种形式。 (2)进行Web Usage Mining主要是通过对系统日志信息的数据挖掘,常用的数据源包括: 、 和 。

二、简答题

(1)列举WEB日志的字段。

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势? (3)列举WEB使用挖掘(Web Usage Mining)的应用。 (4)基于Web日志的用户访问模式挖掘有什么缺点? (5)电子商务中进行数据挖掘有哪些难点?

作业答案

第一章 引言 一、填空题

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示 (2)算法的效率、可扩展性和并行处理 (3)统计学、数据库技术和机器学习 (4)WEB挖掘

(5)一些与数据的一般行为或模型不一致的孤立数据 二、单选题 (1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E; 三、简答题

(1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库 数据库或数据仓库服务器 知识库

数据挖掘引擎 模式评估模块 图形用户界面

(3)请简述不同历史时代数据库技术的演化。 答:1960年代和以前:研究文件系统。 1970年代:出现层次数据库和网状数据库。 1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现 1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。

1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。 2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量? 答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如: 支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? 答:一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。 (7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别? 答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二章 数据仓库和数据挖掘的OLAP技术 一、填空题

(1) 星形模式、雪花模式和事实星座模式 (2) 不物化、部分物化和全物化

(3) 面向主题、数据集成、随时间而变化和数据不易丢失 (4) 事务操作,只读查询 (5) 分布的、代数的和整体的

(6) 自顶向下视图、数据源视图、数据仓库视图、商务查询视图

(7) 关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器

(HOLAP)

(8) 分布的

(9) 海量数据,有限的内存和时间 二、单选题 (1)B;(2)D;(3)C;(4)A;(5)B 三、多选题 (1)ABD;(2)ABC;(3)BCD;(4)ACD; 四、简答题

(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。 答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:

(1)提高两个系统的性能

操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。 (2)两者有着不同的功能

操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。 (3)两者有着不同的数据

数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

(2)为什么说数据仓库具有随时间而变化的特征? 答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去 5-10 年)。 (2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。

(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法? 答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。 (4)请简述几种典型的多维数据的OLAP操作 答:典型的OLAP操作包括以下几种

上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集; 下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;

切片:在给定的数据立方体的一个维上进行选择,导致一个子方; 切块:通过对两个或多个维执行选择,定义子方; 转轴:转动数据的视角,提供数据的替代表示; 钻过:执行涉及多个事实表的查询;

钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表

(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失? 答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。 (2)数据仓库不需要事务处理,恢复,和并发控制等机制。 (3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。

(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(d) 为数据仓库画出雪花模式图。

(e) 由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学

生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。 (f) 如果每维有5层(包括all),如student < major < status < university < all, 该数据

方包含多少方体(包含基本方体和顶点方体)?

(7)在数据仓库中,元数据的主要用途包括哪些? 答:在数据仓库中,元数据的主要用途包括:

(1) 用作目录,帮助决策支持系统分析者对数据仓库的内容定义 (2) 作为数据仓库和操作性数据库之间进行数据转换时的映射标准

(3) 用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合

的数据和高度综合的数据之间的汇总算法。

(8)数据仓库后端工具和程序包括哪些? 答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:

(1) 数据提取:从多个外部的异构数据源收集数据 (2) 数据清理:检测数据种的错误并作可能的订正

(3) 数据变换:将数据由历史或主机的格式转化为数据仓库的格式

(4) 装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区 (5) 刷新:将数据源的更新传播到数据仓库中

五、计算题

(1) 答:a. 内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:

allallABCABCABACBCABACBCABC内存空间需求最小的块计算次序ABC内存空间需求最大的块计算次序

b. 这两个次序下计算二维平面所需要的内存空间的大小:

内存空间需求最小的次序:10,000×1,000(用于整个BC平面)+(100,000/10)×1,000(用于AC平面的一行)+(100,000/10)×(10,000/10)(用于AB平面的一格)=30,000,000 内存空间需求量最大的块计算次序:

100,000×10,000(用于整个AB平面)+100,000×(1,000/10)(用于AC平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000

第三章 数据预处理 一、填空题

(1) 数据清理、数据集成、数据变换、数据规约 (2) 分箱、聚类、计算机和人工检查结合、回归 (3) 整合不同数据源中的元数据,实体识别问题 (4) 沿概念分层向上概化 (5) 有损压缩,无损压缩

(6) 线性回归方法,多元回归,对数线性模型 (7) 五数概括、中间四分位数区间、标准差

二、单选题 (1)C;(2)A;(3)D;(4)C;(5)C;(6)B

三、多选题 (1)ABC;(2)BD;(3)ABC;(4)BD;(5)ACD

四、简答题

(1)常用的数值属性概念分层的方法有哪些? 答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

(2)典型的生成分类数据的概念分层的方法有哪些? 答:典型的生成分类数据的概念分层的方法包括:

(1)由用户或专家在模式级显示的说明属性的部分序; (2)通过显示数据分组说明分层结构的一部分。

(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。

(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 答:处理空缺值的方法有:

(1) 忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),

当每个属性缺少值的百分比变化很大时,它的效果非常差。

(2) 人工填写空缺值。这种方法工作量大,可行性低

(3) 使用一个全局变量填充空缺值:比如使用unknown或-∞ (4) 使用属性的平均值填充空缺值

(5) 使用与给定元组属同一类的所有样本的平均值

(6) 使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于

推断的方法

(4)常见的数据归约策略包括哪些? 答:数据归约策略包括:

(1) 数据立方体聚集 (2) 维归约 (3) 数据压缩

(4) 数值归约

(5) 离散化和概念分层产生

第四章 数据挖掘原语、语言和系统结构 一、填空题

(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层 (2)简单性、确定性、实用性、新颖性 (3)最小置信度临界值、最小支持度临界值

二、单选题 (1)C;(2)D

三、多选题 (1)AC

四、简答题

(1)定义数据挖掘任务的原语,主要应该包括哪些部分? 答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:

说明数据库的部分或用户感兴趣的数据集; 要挖掘的知识类型;

用于指导挖掘的背景知识; 模式评估、兴趣度量; 如何显示发现的知识。

(2)为什么需要数据挖掘原语和语言来指导数据挖掘? 答:如果不使用数据挖掘原语和语言来指导数据挖掘

(1) 会产生大量模式(重新把知识淹没) (2) 会涵盖所有数据,使得挖掘效率低下 (3) 大部分有价值的模式集可能被忽略

(4) 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感

兴趣。

(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。 答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。 半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。 紧密耦合:DM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。

(4)数据挖掘的GUI可能包含哪些部分? 答:数据挖掘的GUI可能包含以下部分:

(1) (2) (3) (4) (5) (6) 数据收集和数据查询编辑 发现模式的表示 分层结构说明和操纵 数据挖掘原语的操作 交互的多层挖掘 其他各种信息

第五章 概念描述:特征化与比较 一、填空题

(1)特征化、区分

(2)数据收集、维相关分析、同步概化、导出比较的表示 (3)描述性挖掘和预测性挖掘

(4)信息增益、Gini索引、不确定性和相关系数 (5)五数概括、中间四分位数区间、标准差

二、单选题 (1)C;(2)D;(3)C;(4)B;(5)B

三、多选题 (1)BD;(2)ABD;(3)AD

四、简答题

(1)简述类比较的过程。 答:类比较的过程一般包括以下四个步骤:

(1)数据收集

通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类;

(2)维相关分析

使用属性相关分析方法,使我们的任务中仅包含强相关的维; (3)同步概化

同步的在目标类和对比类上进行概化,得到主目标类关系/方体 和 主对比类关系/方体;

(4)导出比较的表示

用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较。

(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;

使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

(3)简述概念描述的属性相关分析的基本步骤。 答:(1)数据收集:通过查询处理,收集目标类和对比类的数据;

(2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们;

(3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性;

(4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。

(4)简要叙述概念描述和OLAP之间的主要区别。 答:两者的主要区别有:

(1) 概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系

统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型。

(2) OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。

(5)为什么进行属性相关分析? 答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。

(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。 答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。 (7)什么是概念描述的增量挖掘? 答:增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。

第六章 大型数据库中的关联规则挖掘 一、填空题

(1)支持度和置信度 (2)连接和剪枝

(3)包含项集的事务数

(4)找出所有频繁项集、由频繁项集产生强关联规则 (5)布尔关联规则、量化关联规则

(6)频繁项集的所有非空子集也必须是频繁的

(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则 (8)反单调的、单调的、简洁的、可转变的、不可转变的 (9)频繁谓词集

二、单选题 (1)A;(2)A;(3)B;(4);(5)C

三、多选题 (1)BD;(2)BC;(3)ABD

四、简答题

(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点? 答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:

逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;

层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;

层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。 答:例如教材《数据挖掘:概念与技术》中例6.6和表6.4。

(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。 答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。 (4)什么是简洁性约束? 答:一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生-测试方式的过大开销。

第七章 分类和预测 一、填空题

(1)准确性、有效性和可伸缩性 (2)先剪枝、后剪枝

二、单选题 (1)C;(2)B;(3)C

三、简答题

(1)简述判定树分类的主要步骤。 答:首先是生成判定树。分为2个步骤:

(1) 归纳生成判定树。开始时,所有的训练样本都在根节点,然后递归的通过

选定的离散值属性,来划分样本,直至满足停止条件。

(2) 树剪枝。许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测

和剪去这种分枝

接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比较来判断其类别归属。

(2)在判定树归纳中,为什么树剪枝是有用的? 答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。 (3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。 答:朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时,做了类条件独立的朴素假定。贝叶斯分类的主要思想参考教材《数据挖掘:概念与技术》7.4.2小节。

(4)请简述判定树归纳算法的基本策略。 答:

1. 树以代表训练样本的单个节点开始

2. 如果样本都在同一个类,则该节点成为树叶,并用该类标记

3. 否则,算法使用基于熵的度量——信息增益作为指导信息,选择能够最好的将

样本分类的属性;该属性成为节点的“测试”或“判定”属性。(使用分类属性) 4. 对测试属性每个已知的值,创建一个分支,并以此划分样本

5. 算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出

现在一个节点上,就不在该节点的任何子节点上出现 6. 递归划分步骤停止的条件有:(1)给定节点的所有样本属于同一类(2)没有剩

余属性可以用来进一步划分样本——使用多数表决(3)没有剩余的样本

(5)对分类和预测方法进行比较和评估的标准都有哪些?

答:(1)导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计。

(2)保持方法:给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)。训练集导出分类法,测试集对其准确性进行评估。随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值。 (3)k-折交叉确认:初始数据被划分为k个不相交的,大小大致相同的子集S1,S2?Sk。进行k次训练和测试,第i次时,以Si做测试集,其他做训练集。准确率为k次

迭代正确分类数除以初始数据集样本总数。 (6)简述数据分类的两步过程。 答:第一步,建立一个模型,描述预定数据类集和概念集。训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性确定。学习模型可以用分类规则、判定树或数学公式的形式提供。 第二步,使用模型,对将来的或未知的对象进行分类。模型在使用之前,要先评估模型的预测准确率。对每个测试样本,将已知的类标号和该样本的学习模型类预测比较。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。测试集要独立于训练样本集,否则会出现“过分适应数据”的情况。 (7)简述后向传播分类的优缺点。 答:优点

(1)预测精度总的来说较高

(2)健壮性好,训练样本中包含错误时也可正常工作

(3)输出可能是离散值、连续值或者是离散或量化属性的向量值 (4)对目标进行分类较快 缺点

(1)训练(学习)时间长

(2)蕴涵在学习的权中的符号含义很难理解 (3)很难跟专业领域知识相整合

四、算法题

判定树buys_PCGame如下所示:

age?<1818...23>23credit_ratingexcellentfairyesyesstudent?noyesnoyesno

第八章 聚类分析 一、填空题

(1)划分方法、层次的方法、基于密度的方法 (2)数据分布的情况

(3)高类内相似度、低类间相似度 (4)数据矩阵、相异度矩阵 (5)处理数度快

(6)度量或执行错误、数据变异的结果 (7)数据分布、分布参数、预期的孤立点数

二、单选题 (1)C;(2)C;(3)C

三、简答题

(1)数据挖掘对聚类分析有哪些要求? 答:(1)可扩展性:大多数来自于机器学习和统计学领域的聚类算法只在处理数百条数据时能表现出高效率 (2)能够处理不同的数据类型 (3)发现任意形状聚类的能力 (4)最小化用于决定输入参数的领域知识 (5)能够处理噪声数据 (6)对于输入数据的顺序不敏感:同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果 (7)能够高效地处理高维数据 (8)支持基于约束的聚类 (9)可解释性和可用性:聚类要和特定的语义解释和应用相联系 (2)简述基于划分的聚类方法。划分的准则是什么? 答:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。每个簇至少包含一个对象,每个对象或元组属于且仅属于一个簇。划分的准则是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。

(3)列举孤立点挖掘的常见应用。 答:孤立点挖掘的常见应用有 (1)信用卡欺诈检测

(2)移动电话欺诈检测 (3)客户划分

(4)医疗分析(异常)

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

e) 不对称的二元变量 f) 标称变量

g) 比例标度型(ratio-scaled)变量 h) 数值型的变量

答:a)不对称的二元变量中,变量的两个状态的重要性是不同的。基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度:

d(i,j)? b?ca?b?c

b) 有两种方法。 方法一:简单匹配方法。设m为匹配的数目,即对象i和j取值相同的变量的数目 (也可加上权重),i,j之间的相异度可由下式计算: md(i,j)?p?p 方法二:对M个标称状态中的每个状态创建一个新的二元变量,并用M个非对称的二元变量来编码标称变量。对于每一个元组中的变量,只有相应值的二元变量取1,其他二元变量取0。这样一来,就可以使用不对称二元变量的计算方法计算对象间的相异度了。 c)如果采用与区间标度变量同样的方法,标度可能被扭曲,效果往往不好。可以对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理,或者将比例标度型变量看作连续的序数型数据,将其秩作为区间标度的值来对待。 d) 数值型变量在可选的标准化后直接使用Manhattan距离或Euclidean距离来计算相异度。

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。 答:例如,在网页结构化信息抽取的应用中,首先根据页面结构对网页进行聚类,然后在不同的网页聚类分组中挖掘共性的模板。

第九章 电子商务与数据挖掘 一、填空题

(1)内容挖掘、结构挖掘、使用挖掘

(2)Web 服务器日志、Error Logs、Cookies

二、简答题

(1)列举WEB日志的字段。

答:常用的WEB日志的字段包括以下:

1)远程主机的地址

2)浏览者的email地址或者其他唯一标识符 3)记录浏览者进行身份验证时提供的名字 4)请求的时间

5)服务器收到的请求类型

6)状态代码,显示请求是否成功 7)发送给客户端的总字节数

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势? 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:

电子商务提供海量的数据: “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据; 丰富的记录信息:

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据:

从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化:

在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量:

所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。

(3)列举WEB使用挖掘(Web Usage Mining)的应用。 答:通过WEB使用挖掘,可以(1)提高站点质量(2)改善WEB缓存,缓解网络交通,提高性能(3)在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能。

(4)基于Web日志的用户访问模式挖掘有什么缺点? 答:基于Web日志的用户访问模式挖掘的缺点有:

(1) WEB日志提供的数据非常有限,即使使用的是扩展日志格式。

(2) WEB日志的设计目的是分析WEB服务器的运行状况,而不是挖掘电子商

务的交易数据和点击流。虽然Web日志中给出了被访问页面的URL,但是这并不等于知道了该URL所指向的网页内容。

(3) 随着互联网上的动态内容越来越多,基于WEB日志的分析与挖掘越来越

困难。

(4) 重构session十分困难。由于HTTP是无状态的,因此通过Web日志重构

session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜。

(5) 一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,例如,购

物车中物品数量的增减,网页上的促销信息,失败的关键字检索等等。

(6) Web日志中的内容无法映射到业务逻辑数据库。

(5)电子商务中进行数据挖掘有哪些难点? 答:电子商务中进行数据挖掘的难点有:

(1)爬虫/机器人访问的过滤。 (2)大量数据的处理 (3)分析前的数据变换 (4)提供市场级的决策支持