原《数据挖掘》习题南京廖华答案网

原《数据挖掘》习题下载本文

文章发布时间 : 2026/2/23 7:29:09星期一

ch1

1. 讨论下列每项活动是否是数据挖掘任务：（fgh是） (a) 根据性别划分公司的顾客。 (b) 根据可赢利性划分公司的顾客。 (c) 计算公司的总销售额。

(d) 按学生的标识号对学生数据库排序。 (e) 预测掷一对骰子的结果。

(f) 使用历史记录预测某公司未来的股票价格。 (g) 监视病人心率的异常变化。 (h) 监视地震活动的地震波。 (i) 提取声波的频率。

2. （ch1）数据挖掘可以在很多数据源上进行，如关系数据库，空间数据库，多媒体数据库，文本数据库等。 3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。 4. （ch1）为了提高挖掘质量，通常要进行数据预处理，包括数据清理、集成、选择、变换等。 5. (ch5){发烧，上呼吸道感染}是（2）项集

6.企业要建立预测模型，需准备建模数据集，以下四条描述建模数据集正确的是( B )。

A 数据越多越好

B 尽可能多的适合的数据 C数据越少越好

D 以上三条都正确

7. 数据挖掘算法以( D )形式来组织数据。

A 行 B列 C 记录 D 表格

Ch2

8. （ch2）

假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70，求：

1）使用按箱平均值平滑对以上数据进行平滑，箱的深度是3。解释你的步骤。

2）使用按箱边界值平滑对以上数据进行平滑，箱的深度是3。解释你的步骤。 7、P98 3.4（ch3）

假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师}，2个度量count和avg_grade。在最低的概念层（例如对于给定的学生、课程、学期和教师组合），度量avg_grade存放学生的实际成绩。为数据仓库画出雪花模式图

8、P98 3.5（ch3）

假定数据仓库包含4个维date,spectator,location和game，2

个度量count和charge。其中，change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人，每类观众有不同的收费标准。画出该数据仓库的星形模式图

10、（ch5）

数据库有4个事物。设min_sup=60%,min_conf=80% TID T100 T200 T300 T400

a)使用Apriori算法找出最大得频繁项集

b)列出所有强关联规则（带支持度s和置信度c）

11.（参P229）

假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于饮料偏爱的信息，汇总如下：

日期 99/10/15 99/10/15 99/10/19 99/10/22 购买的物品 {K,A,D,B} {D,A,C,E,B} {C,A,B,E} {B,A,D}

咖啡不喝咖汇总啡茶 150 50 150 200 200 800 1000 不喝茶 650 汇总 800 若支持度和置信度阈值分别为10%，50%，评估关联规则{茶}——>{咖啡}。（负相关） 12.（ch5,参P224 ）

有如下事务数据集。试挖掘频繁项集。(最小支持度为2)

TID 1 2 3 4 5 6 7 8 9 10 项 {a,b} {bcd} {acde} {ade} {abc} {abcd} {a} {abc} {abd} {bce}

结果：后缀 e d c b a 频繁项集 {e},{de},{ade},{ce},{ae} {d},{cd},{bcd},{acd},{bd},{abd},{ad} {c},{bc},{abc}{ac} {b}{ab} {a} 13.（ch5,参P256,17）

假定有一个购物篮数据集，包含100个事务和20个项。如果项a的支持度为25%，项b得支持度为90%,且项集{ab}得支持度为20%。令最小支持度阈值和最小置信度阈值分别为10%和60%。

1）计算关联{a}——>{b}的置信度。根据置信度度量，这条规则是有趣的么？（这条规则是否是强关联规则？）(80%,是)

2）{a}——>{b}是否有趣？（负相关，无趣） 11. 求出下表的强关联规则（ch5） ID P1 P2 P3 butter bread meat P4 water noodle beer 1 bread cheese 2 water milk 3 orange noodle 4 fish softdrink frozenmeal bread

12、（ch6）

下表给出某门课程若干学生期中和期末考试成绩期中 72 50 81 74 94 86 59 83 65 33 88 81 期末 84 63 77 78 90 75 49 79 77 52 74 90 绘数据图。X和Y看上去具有线性联系吗？

13. （ch6）

下表是对是否购买计算机的调查表，请根据ID3算法画出是否购买计算机的决策树。计数年龄收入学生信誉归类：买计算机？ 64 青 64 青 128 中 60 老 64 老 64 老 64 中 128 青 64 青高否高否高否中否低是低是低是中否低是良优良良良优优良良不买不买买买买不买买不买买

132 老中是良买 64 青中是优买 32 中中否优买 32 中高是良买 63 老中否优不买 1 老中否优买 14.预测拖欠银行贷款的贷款者（参P94） TID 有房婚姻状年收入拖欠贷况款 1 是单身 125K 否 2 否已婚 100K 否 3 否单身 70K 否 4 是已婚 120K 否 5 否离异 95K 是 6 否已婚 60K 否 7 是离异 220K 否 8 否单身 85K 是 9 否已婚 75K 否 10 否单身 90K 是一客户信息如下：X=（有房=否，婚姻状况=已婚，年收入=120K）

用贝叶斯分类法，预测记录的拖欠贷款类别。（否）年收入 60 70 75 85 90 95 100 120 125 220

可能的分裂

点 65 72.5 80 87.5 92.5 97.5 110 122.5 172.5

熵 0.82647 0.76355 0.68966 0.87549 0.84644 0.5 0.68966 0.76355 0.82647

原数据集合修正为： TID 有房婚姻年收入状况 1 2 3 4 是否否是拖欠贷款单身 125K(>97.5) 否已婚 100K(>97.5) 否单身 70K(<=97.5) 否已婚 120K(>97.5) 否

5 6 7 8 9 10

否否是否否否离异 95K(<=97.5) 是已婚 60K(<=97.5) 否离异 220K(>97.5) 否单身 85K(<=97.5) 是已婚 75K(<=97.5) 否单身 90K(<=97.5) 是 P(是)=0.3 p(否)=0.7

p(是|X)?p(X|是）p(是)

p(X)

p(否|X)?p(X|否）p(否)

p(X)p(X|是)?p(有房?否|是）p(婚姻状况?已婚|是）p（年收入?120|是）

?100%*0*0?0p(X|是)?p(有房?否|否）p(婚姻状况?已婚|否）p（年收入?120|否）

?4/7*4/7*4/7?18.66%所以，他可能不拖欠贷款最佳分裂点：97.5

15.(CH6，参P122)

考虑如下二元分类问题的训练样本：顾客ID 性别车型衬衣尺类码 1 2 男男家用运动小中 C0 C0

3 男运动中 C0 4 男运动大 C0 5 男运动加大 C0 6 男运动加大 C0 7 女运动小 C0 8 女运动小 C0 9 女运动中 C0 10 女豪华大 C0 11 男家用大 C1 12 男家用加大 C1 13 男家用中 C1 14 男豪华加大 C1 15 女豪华小 C1 16 女豪华小 C1 17 女豪华中 C1 18 女豪华中 C1 19 女豪华中 C1 20 女豪华大 C1 1)计算整个训练样本集得GINI指标（0.5） 2）计算属性顾客ID的GINI指标（0） 3）计算属性性别的GINI指标（0.5）

4）那个属性更好？性别、车型还是衬衣尺码？（车型，因

为其GINI指标最低） 16. (CH6，参P122)

考虑如下二元分类问题的训练样本：实例a1 标号 1 2 3 4 5 6 7 8 9 T T T F F F F T F T T F F T T F F T 1 6 5 4 7 3 8 7 5 a2 a3 目标类 + + _ + - - - + - 1) 整个训练样本集关于类属性得熵是多少？（0.9911） 2）关于这些训练样本，a1和a2的信息增益是多少？（0.2294，0.0072）

3）对于连续属性a3，计算所有可能的划分的信息增益

2.0是最佳分裂点。

4）根据信息增益，那个是最佳划分？（在a1,a2,a3中）（a1） 5）根据GINI指标，那个是最佳划分？（在a1,a2,a3中）（a1） 17.考虑如下二元分类问题得数据集(CH6，参P123) A T T T T T F F F T T B F T T F T F F F T F 类标号 + + + - + + + + + + 1)计算按照属性A、B划分时得信息增益。决策树归纳算法

将会选择那个属性？（GA=0.2813.GB=0.2565 A）

2）计算按照属性A、B划分时的GINI指标。决策树归纳算法将会选择那个属性？(不纯度降低：0.1371,0.1633, (B) 18.已知下表： (CH6，参P124) ＡＴＦＴＦＴＦＴＦＢＴＴＦＦＴＴＦＦＣＴＴＴＴＦＦＦＦ实例数＋５０２０００２５００ — ０２００５０００２５试建立一颗两层的决策树

１9. （CH6，参，Ｐ１３９）贝叶斯分类

考虑两队之间的足球比赛：对０和１.假设６５％的比赛队０胜出，剩余得比赛队１获胜。队０获胜得比赛中只有３０％是在队１的主场，而对１取胜的比赛中７５％是主场获胜。如果下一场比赛在队１的主场进行，哪一支球队最有可能胜出呢？（队１）

x：东道主（0，1） y：胜利者（0，1）

队0取胜得概率：p(y=0)=0.65 队1取胜得概率：p(y=1)=0.35

对１取胜的比赛中７５％是主场获胜：队1获胜时作为东道主的概率：p(x=1|y=1)=0.75

队０获胜得比赛中只有３０％是在队１的主场：即队0取胜时队1作为东道主得概率： P(x=1|y=0)=0.3

比较P(y=1|x=1)和P(y=0|x=1)

p(y?1|x?1)?p(x?1|y?1)p(y?1)0.75?0.350.2625??p(x?1)p(x?1)p(x?1)p(x?1|y?0)p(y?0)0.3?0.650.195??p(x?1)p(x?1)p(x?1)

p(y?0|x?1)?P(y=1|x=1)>P(y=0|x=1) 所以，队1可能取胜。

20.（ch6，参P195，8）考虑下列数据集：实例 1 2 3 4 5 6 A 0 1 0 1 1 0 B 0 0 1 0 0 0 C 1 1 0 0 1 1 类 - + - - + +

7 8 9 10 1 0 0 1 1 0 1 1 0 0 0 1 - - + + 1)估计条件概率P(A=1|+), P(B=1|+), P(C=1|+), P(A=1|-), P(B=1|-), P(C=1|-)

(0.6，0.4，0.8，0.4，0.4，0.2)

2)根据1）中的条件概率，使用朴素贝叶斯分类方法预测测试样本（A=1,B=1,C=1）得类标号。（+）

3）比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。（独立） 14、（ch7）

假设数据集D含有9个数据对象（用2维空间的点表示）： A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2)

采用k-均值方法进行聚类，距离函数采用欧几里德距离，取k=3，假设初始的三个簇质心为A1,B1,和C1，求：（1）第一次循环结束时的三个簇的质心。（2）最后求得的三个簇。

A2 √49

A3 √41

B2 √5

√64 √52 √1

B1 C1

√52 √10

√2 √36

√50 √74 √1 √4

√58

√17 √49 √16

第一次循环结束时：(A1,C3)质心为（2.5，2）或（3，2）

（B1,A3,C2）,质心为：(8.7,5.7)或（9，6）

（C1,A2,B2,B3）, 质心为：（2.7，8.3）或（3，8）

平方误差E=28 第二次循环

B1 B2

√3,2 0 √49 √41 √45

√64 √17 √52

5 √√9,6 √45 1 1 √65 √49 0 52 53 √√3,7 √25 √26 √40 √9 √2 √37 25

第二次循环结束时：(A1,B2,C3)质心为（2.3，2.7）或（2，3）

（A3,B1, C2）,质心为：(8.7,5.7)或（9，6）

（A2, B3 ,C1）, 质心为：（2.5，7.25）或（3，7）

平方误差E=21 第三次循环

B1 B2

C3 1

√√

2,3 √2 √37 √45 √53

√√1 √√50 √9 √58 1

9,6 √45 1 1 √65 √49 0 √65

52 53 √√3,7 √4 √26 √40 √9 √2 √37 25

第三次循环结束时：(A1,B2,C3)质心为（2.3，2.7）或（2，3）不变

（A3,B1, C2）,质心为：(8.7,5.7)或（9，6）不变（A2, B3 ,C1）, 质心为：（2.5，7.25）或（3，7）不变

平方误差E=21不变

15. （ch7）

已知四个点的坐标如下：

点 X坐标 Y坐标 P1 0 2 P2 2 0 P3 3 1 P4 5 1 其欧几里德距离矩阵： P1 P2 P3 P4 37

√

P1 P2 P3 P4 0 2.8 3.2 5.1 0 1.4 3.2 0 2 0 试进行单链、全链聚类，并画出树形图。答案：单链： P1 P2，p3 P4 P1 P1 0 P2，p3,p4 0 P1 0 2.8 5.1 P2，p3 0 2 P4 0 P2，p3,p4 2.8 P2,p3——P2,P3,P4——p2,p2,p4,p1 全链：第一步同单链 P1 P2，p3 P1 0 3.2 P2，p3 0 P4

P4 5.1 3.2 0 P2,p3——P2,P3,P4——p2,p2,p4,p1 或：P2,p3——P2,P3,P1——p2,p2,p1,p4

16.请将下列属性分类：（ch7）

1)用AM和PM表示的时间（序数变量）

2）按度测出得0和360之间的角度（区间标度变量） 3）奥运会上授予得铜牌、银牌和金牌（序数） 4）学生的性别（二元）

5）用如下值表示得透光能力：不透明、半透明、透明（序数）

6）外套寄存号码（当你出席一个活动时，你常常可以将你的外套交给某个人，然后他给你一个号码，你可以在离开时来取）（名义）

17. 计算下表表示的混淆矩阵得熵和纯度簇 #1 #2 #3 娱乐财经国外都市国内体育合计 1 27 326 1 89 465 0 333 8 11 827 105 4 253 16 676 33 29 693 1562 949

合计 354 555 341 943 273 738 3204

18.已知四个点的相异度矩阵：

点 P1 P2 P3 P4 P1 0 0.2 0.35 0.45 P2 0 0.3 0.4 P3 0 0.1 P4 0 试进行单链、全链聚类，并画出树形图。

Word文档下载：原《数据挖掘》习题.doc

搜索更多:原《数据挖掘》习题