数据挖掘作业 下载本文

第七章 分类和预测 一、填空题

(1)通过对数据进行预处理,可以提高分类和预测过程的 、 和

(2)防止分类中的过分适应的两种方法分别是: 和

二、单选题

(1)下面哪种分类方法是属于神经网络学习算法?( )

A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (2)下面哪种分类方法是属于统计学的分类方法?( ) A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (3)下列哪个描述是正确的?( )

A、分类和聚类都是有指导的学习 C、分类是有指导的学习,聚类是无指导的学习 B、分类和聚类都是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习

三、简答题

(1)简述判定树分类的主要步骤。

(2)在判定树归纳中,为什么树剪枝是有用的?

(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。 (4)请简述判定树归纳算法的基本策略。

(5)对分类和预测方法进行比较和评估的标准都有哪些? (6)简述数据分类的两步过程。 (7)简述后向传播分类的优缺点。

四、算法题

(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323

对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155

请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。

age <18 18?23 >23 income student credit_rating class Income student credit_rating class high medium high medium low no yes no yes no fair fair fair excellent excellent no no no yes yes income high medium high medium student credit_rating class no yes no yes fair fair fair excellent yes yes yes yes high high low low no yes yes yes no fair excellent fair fair excellent no yes yes yes no medium

第八章 聚类分析 一、填空题

(1)在数据挖掘中,常用的聚类算法包括: 、 、 、基于网格的方法和基于模型的方法。

(2)聚类分析常作为一个独立的工具来获得 (3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征: 和

(4)许多基于内存的聚类算法所常用的两种数据结构是 和 (5)基于网格的聚类方法的优点是:

(6)孤立点产生的主要原因包括: 和

(7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括: 、 和

二、单选题

(1)下面那种数据挖掘方法可以用来检测孤立点? A.概念描述 B.分类和预测 C.聚类分析 D.演变分析 (2)以下哪个指标不是表示对象间的相似度和相异度

A、Euclidean距离 B、Manhattan距离 C、Eula距离 D、Minkowski距离 (3)以下哪种聚类方法可以发现任意形状的聚类? A、划分的方法 B、基于模型的方法 C、基于密度的方法 D、层次的方法

三、简答题

(1)数据挖掘对聚类分析有哪些要求?

(2)简述基于划分的聚类方法。划分的准则是什么? (3)列举孤立点挖掘的常见应用。

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

a) 不对称的二元变量 b) 标称变量

c) 比例标度型(ratio-scaled)变量 d) 数值型的变量

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。

第九章 电子商务与数据挖掘 一、填空题

(1)Web数据挖掘通常包括 、 和 三种形式。 (2)进行Web Usage Mining主要是通过对系统日志信息的数据挖掘,常用的数据源包括: 、 和 。

二、简答题

(1)列举WEB日志的字段。

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势? (3)列举WEB使用挖掘(Web Usage Mining)的应用。 (4)基于Web日志的用户访问模式挖掘有什么缺点? (5)电子商务中进行数据挖掘有哪些难点?

作业答案

第一章 引言 一、填空题

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示 (2)算法的效率、可扩展性和并行处理 (3)统计学、数据库技术和机器学习 (4)WEB挖掘

(5)一些与数据的一般行为或模型不一致的孤立数据 二、单选题 (1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E; 三、简答题

(1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库 数据库或数据仓库服务器 知识库

数据挖掘引擎 模式评估模块 图形用户界面

(3)请简述不同历史时代数据库技术的演化。 答:1960年代和以前:研究文件系统。 1970年代:出现层次数据库和网状数据库。 1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现 1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。