习题及参考答案

(b)对于数据平滑,其它方法有:

(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;

(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合

之外的值视为离群点。

2.6 使用习题2.5 给出的age数据,回答以下问题:

(a) 使用min-max 规范化,将age 值35 转换到[0.0,1.0]区间。

(b) 使用z-score 规范化转换age 值35,其中,age 的标准偏差为12.94 年。 (c) 使用小数定标规范化转换age 值35。

(d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。 答:(a)已知最大值为70,最小值为13,则可将35规范化为:

35-1370-1335-3012.94?0.386;

(b)已知均值为30,标准差为12.94,则可将35规范化为:(c)使用小数定标规范化可将35规范化为:

35100?0.35;

?0.386;

(d)对于给定的数据,你愿意使用min-max 规范化。理由是计算简单。 2.7 使用习题2.5 给出的age 数据

(a) 画一个宽度为10 的等宽的直方图。

(b) 为以下每种抽样技术勾画例子:有放回简单随机抽样,无放回简单随机抽样,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。

答:(a)如下为宽度为10 的等宽的直方图:

(b)已知样本大小为5和层“青年”,“中年”和“老年”,

(1)有放回简单随机抽样:30,33,30,25,30

(2)无放回简单随机抽样:30,33,33,35,25 (3)聚类抽样:16,25,33,35,46 (4)分层抽样:25,35,52

2.8以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现

次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。

答:(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价格在1—10之间出

现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数为13。

(2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数4。出现次数1—4

第 5 页 共 27 页

之间的价格为1、8、10、12、14、21、28、30,共8个数据;出现次数5—8之间的价格为5、15、18、20、25,共5个数据。

2.9 讨论数据聚合需要考虑的问题。 答:数据聚合需要考虑的问题有:

(1)模式识别:这主要是实体识别问题;

(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,也可能导致冗余,可以用相关分析来检测;

(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。

2.10 假定我们对一个比率属性x使用平方根变换,得到一个新属性x*。作为分析的一部分,

你识别出区间(a, b),在该区间内,x*与另一个属性y具有线性关系。 (a)换算成x, (a, b)的对应区间是什么?

(b)给出y关联x的方程。 答:(a)(a^2,b^2);

(b)Y=kx^0.5 +C (k, C是常数)。

2.11 讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好

的抽样方法吗?为什么是,为什么不是? 答:抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利

用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方

法,不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。

2.12 给定m个对象的集合,这些对象划分成K组,其中第i组的大小为mi。如果目标是得

到容量为n

(a)从每组随机地选择n×mi/m个元素。

(b)从数据集中随机地选择n个元素,而不管对象属于哪个组。

答:(a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样本的

个数是随机的,不能保证每个组都能抽到样本。

2.13 一个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的方

法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我

只是记录顾客对每种产品的抱怨次数,我在数据挖掘的书中读到计数具有比率属性,因此,我的产品满意度度量必定具有比率属性。但是,当我根据我的顾客满意度度量评估产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他简直是疯了,因为我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平他吗?”

(a)谁是对的,销售主管还是他的老板?如果你的答案是他的老板,你做些什么来修正满意度度量?

(b)对于原来的产品满意度度量的属性类型,你能说些什么? 答: (a) 老板是对的。更好的衡量方法应该如下:

不满意率(产品)=每种产品的抱怨次数/该产品的总销售量 (b) 原来衡量方法的属性类型是没有意义的。例如,两件商品有相同的顾客满意度可能会有不同的抱怨次数,反之亦然。

第 6 页 共 27 页

2.14 考虑一个文档-词矩阵,其中tfij是第i个词(术语)出现在第j个文档中的频率,而m是

文档数。考虑由下式定义的变量变换:tfij'?tfij?logmdfi

其中,dfi是出现i个词的文档数,称作词的文档频率(document frequency)。该变换称作逆文档频率变换(inverse document frequency)。

(a)如果出现在一个文档中,该变换的结果是什么?如果术语出现在每个文档中呢? (b)该变换的目的可能是什么?

答:(a) 如果该词出现在每一个文档中,它的词权就会为0,但是如果这个词仅仅出现在一

个文档中,它就有最大的词权,例如,log m 。

(b) 这个变换反映了以下一个现象:当一个词出现在每一个文档中,对于文档与文档之

间,该词没有区分能力,但是那些只是某一两篇文档出现的词,其区分文档的能

力就较强。

2.15 对于下面的向量x和y,计算指定的相似性或距离度量。

(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相关系数、欧几里得。

(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相关系数、欧几里得、Jaccard系数。 (c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相关系数。 答:(a) 余弦相似度、相关系数、欧几里得分别是0.5,0,2;

(b) 余弦相似度、相关系数、欧几里得、Jaccard系数分别是0,1,2,0; (c) 余弦相似度、相关系数分别是0,0。

2.16 简单地描述如何计算由以下类型的变量描述的对象间的相异度:

(a) 不对称的二元变量 (b) 分类变量

(c) 比例标度型(ratio-scaled)变量 (d) 数值型变量

答:

(a) 使用Jaccard系数计算不对称的二元变量的相异度;

(b) 采用属性值匹配的方法(属性值匹配,相似度为1,否则为0)可以计算用分类变量

描述的对象间的相异度;

(c) 对比例标度变量进行对数变换,对变换得到的值采用与处理区间标度变量相同的方法来计算相异度;

(d) 可采用欧几里得距离公式或曼哈顿距离公式计算。

2.17 给定两个向量对象,分别表示为p1(22,1,42,10),p2(20,0,36,8):

(a) 计算两个对象之间的欧几里得距离 (b) 计算两个对象之间的曼哈顿距离 (c) 计算两个对象之间的切比雪夫距离

(d) 计算两个对象之间的闵可夫斯基距离,用x=3 答:

(a) 计算两个对象之间的欧几里得距离

d12?(22?20)?(1?0)?(42?36)?(10?8)?222245

第 7 页 共 27 页

(b) 计算两个对象之间的曼哈顿距离

d12?|22?20|?|1?0|?|42?36|?|10?8|?11

(c) 计算两个对象之间的闵可夫斯基距离,其中参数r=3

d12?3|22?20|?|1?0|?|42?36|?|10?8|?33333233

2.18 以下表格包含了属性name,gender,trait-1,trait-2,trait-3,及trait-4,这里的name 是

对象的id,gender 是一个对称的属性,剩余的trait 属性是不对称的,描述了希望找到

的笔友的个人特点。假设有一个服务是试图发现合适的笔友。

name Keavn Caroline Erik gender M F M trait-1 trait-2 trait-3 trait-4 N N P P P N P P N N N P 对不对称的属性的值,值P 被设为1,值N 被设为0。

假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。 (a) 计算对象间的简单匹配系数; (b) 计算对象间的Jaccard 系数;

(c) 你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的?

(d) 假设我们将对称变量gender 包含在我们的分析中。基于Jaccard 系数,谁将是最和

谐的一对?为什么? 答:

(a) 计算对象间的简单匹配系数

SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1 SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0 SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0

(b) 计算对象间的Jaccard 系数

Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1 Jaccard (Keavn, Erik) = 0/(0+2+2) = 0 Jaccard (Caroline,Erik) = 0/(0+2+2) = 0

(c) 根据属性的匹配程度,Keavn和Caroline将成为最佳笔友,Caroline和Erik会是最不能相容的。

(d) 若将对称变量gender 包含在分析中,设值M被设为1,值F被设为0, Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3 Jaccard (Keavn, Erik) = 1/(1+2+2) = 1/5 Jaccard (Caroline,Erik) = 0/(0+2+3) = 0

因为Jaccard (Keavn, Caroline)最大,因此,Keavn和 Caroline是最和谐的一对。

2.19 给定一个在区间[0,1]取值的相似性度量,描述两种将该相似度变换成区间[0,∞]中的

相异度的方法。 答:取倒数减一:d(p,q)?1s(p,q)?1

第 8 页 共 27 页

联系客服:779662525#qq.com(#替换为@)