数据挖掘作业 下载本文

迭代正确分类数除以初始数据集样本总数。 (6)简述数据分类的两步过程。 答:第一步,建立一个模型,描述预定数据类集和概念集。训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性确定。学习模型可以用分类规则、判定树或数学公式的形式提供。 第二步,使用模型,对将来的或未知的对象进行分类。模型在使用之前,要先评估模型的预测准确率。对每个测试样本,将已知的类标号和该样本的学习模型类预测比较。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。测试集要独立于训练样本集,否则会出现“过分适应数据”的情况。 (7)简述后向传播分类的优缺点。 答:优点

(1)预测精度总的来说较高

(2)健壮性好,训练样本中包含错误时也可正常工作

(3)输出可能是离散值、连续值或者是离散或量化属性的向量值 (4)对目标进行分类较快 缺点

(1)训练(学习)时间长

(2)蕴涵在学习的权中的符号含义很难理解 (3)很难跟专业领域知识相整合

四、算法题

判定树buys_PCGame如下所示:

age?<1818...23>23credit_ratingexcellentfairyesyesstudent?noyesnoyesno

第八章 聚类分析 一、填空题

(1)划分方法、层次的方法、基于密度的方法 (2)数据分布的情况

(3)高类内相似度、低类间相似度 (4)数据矩阵、相异度矩阵 (5)处理数度快

(6)度量或执行错误、数据变异的结果 (7)数据分布、分布参数、预期的孤立点数

二、单选题 (1)C;(2)C;(3)C

三、简答题

(1)数据挖掘对聚类分析有哪些要求? 答:(1)可扩展性:大多数来自于机器学习和统计学领域的聚类算法只在处理数百条数据时能表现出高效率 (2)能够处理不同的数据类型 (3)发现任意形状聚类的能力 (4)最小化用于决定输入参数的领域知识 (5)能够处理噪声数据 (6)对于输入数据的顺序不敏感:同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果 (7)能够高效地处理高维数据 (8)支持基于约束的聚类 (9)可解释性和可用性:聚类要和特定的语义解释和应用相联系 (2)简述基于划分的聚类方法。划分的准则是什么? 答:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。每个簇至少包含一个对象,每个对象或元组属于且仅属于一个簇。划分的准则是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。

(3)列举孤立点挖掘的常见应用。 答:孤立点挖掘的常见应用有 (1)信用卡欺诈检测

(2)移动电话欺诈检测 (3)客户划分

(4)医疗分析(异常)

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

e) 不对称的二元变量 f) 标称变量

g) 比例标度型(ratio-scaled)变量 h) 数值型的变量

答:a)不对称的二元变量中,变量的两个状态的重要性是不同的。基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度:

d(i,j)? b?ca?b?c

b) 有两种方法。 方法一:简单匹配方法。设m为匹配的数目,即对象i和j取值相同的变量的数目 (也可加上权重),i,j之间的相异度可由下式计算: md(i,j)?p?p 方法二:对M个标称状态中的每个状态创建一个新的二元变量,并用M个非对称的二元变量来编码标称变量。对于每一个元组中的变量,只有相应值的二元变量取1,其他二元变量取0。这样一来,就可以使用不对称二元变量的计算方法计算对象间的相异度了。 c)如果采用与区间标度变量同样的方法,标度可能被扭曲,效果往往不好。可以对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理,或者将比例标度型变量看作连续的序数型数据,将其秩作为区间标度的值来对待。 d) 数值型变量在可选的标准化后直接使用Manhattan距离或Euclidean距离来计算相异度。

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。 答:例如,在网页结构化信息抽取的应用中,首先根据页面结构对网页进行聚类,然后在不同的网页聚类分组中挖掘共性的模板。

第九章 电子商务与数据挖掘 一、填空题

(1)内容挖掘、结构挖掘、使用挖掘

(2)Web 服务器日志、Error Logs、Cookies

二、简答题

(1)列举WEB日志的字段。

答:常用的WEB日志的字段包括以下:

1)远程主机的地址

2)浏览者的email地址或者其他唯一标识符 3)记录浏览者进行身份验证时提供的名字 4)请求的时间

5)服务器收到的请求类型

6)状态代码,显示请求是否成功 7)发送给客户端的总字节数

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势? 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:

电子商务提供海量的数据: “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据; 丰富的记录信息:

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据:

从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化:

在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量:

所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。

(3)列举WEB使用挖掘(Web Usage Mining)的应用。 答:通过WEB使用挖掘,可以(1)提高站点质量(2)改善WEB缓存,缓解网络交通,提高性能(3)在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能。

(4)基于Web日志的用户访问模式挖掘有什么缺点? 答:基于Web日志的用户访问模式挖掘的缺点有:

(1) WEB日志提供的数据非常有限,即使使用的是扩展日志格式。

(2) WEB日志的设计目的是分析WEB服务器的运行状况,而不是挖掘电子商

务的交易数据和点击流。虽然Web日志中给出了被访问页面的URL,但是这并不等于知道了该URL所指向的网页内容。

(3) 随着互联网上的动态内容越来越多,基于WEB日志的分析与挖掘越来越

困难。

(4) 重构session十分困难。由于HTTP是无状态的,因此通过Web日志重构

session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜。

(5) 一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,例如,购

物车中物品数量的增减,网页上的促销信息,失败的关键字检索等等。

(6) Web日志中的内容无法映射到业务逻辑数据库。

(5)电子商务中进行数据挖掘有哪些难点? 答:电子商务中进行数据挖掘的难点有:

(1)爬虫/机器人访问的过滤。 (2)大量数据的处理 (3)分析前的数据变换 (4)提供市场级的决策支持