ch1
1. 讨论下列每项活动是否是数据挖掘任务:(fgh是) (a) 根据性别划分公司的顾客。 (b) 根据可赢利性划分公司的顾客。 (c) 计算公司的总销售额。
(d) 按学生的标识号对学生数据库排序。 (e) 预测掷一对骰子的结果。
(f) 使用历史记录预测某公司未来的股票价格。 (g) 监视病人心率的异常变化。 (h) 监视地震活动的地震波。 (i) 提取声波的频率。
2. (ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。 3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。 4. (ch1) 为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。 5. (ch5){发烧,上呼吸道感染}是(2)项集
6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。
A 数据越多越好
B 尽可能多的适合的数据 C数据越少越好
D 以上三条都正确
7. 数据挖掘算法以( D )形式来组织数据。
A 行 B列 C 记录 D 表格
Ch2
8. (ch2)
假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:
1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。
2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。 7、P98 3.4(ch3)
假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。为数据仓库画出雪花模式图
8、P98 3.5(ch3)
假定数据仓库包含4个维date,spectator,location和game,2
个度量count和charge。其中,change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。画出该数据仓库的星形模式图
10、(ch5)
数据库有4个事物。设min_sup=60%,min_conf=80% TID T100 T200 T300 T400
a)使用Apriori算法找出最大得频繁项集
b)列出所有强关联规则(带支持度s和置信度c)
11.(参P229)
假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于饮料偏爱的信息,汇总如下:
日期 99/10/15 99/10/15 99/10/19 99/10/22 购买的物品 {K,A,D,B} {D,A,C,E,B} {C,A,B,E} {B,A,D}
咖啡 不喝咖汇总 啡 茶 150 50 150 200 200 800 1000 不喝茶 650 汇总 800 若支持度和置信度阈值分别为10%,50%,评估关联规则{茶}——>{咖啡}。(负相关) 12.(ch5,参P224 )
有如下事务数据集。试挖掘频繁项集。(最小支持度为2)
TID 1 2 3 4 5 6 7 8 9 10 项 {a,b} {bcd} {acde} {ade} {abc} {abcd} {a} {abc} {abd} {bce}
结果: 后缀 e d c b a 频繁项集 {e},{de},{ade},{ce},{ae} {d},{cd},{bcd},{acd},{bd},{abd},{ad} {c},{bc},{abc}{ac} {b}{ab} {a} 13.(ch5,参P256,17)
假定有一个购物篮数据集,包含100个事务和20个项。如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。令最小支持度阈值和最小置信度阈值分别为10%和60%。
1)计算关联{a}——>{b}的置信度。根据置信度度量,这条规则是有趣的么?(这条规则是否是强关联规则?)(80%,是)
2){a}——>{b}是否有趣?(负相关,无趣) 11. 求出下表的强关联规则(ch5) ID P1 P2 P3 butter bread meat P4 water noodle beer 1 bread cheese 2 water milk 3 orange noodle 4 fish softdrink frozenmeal bread
12、(ch6)
下表给出某门课程若干学生期中和期末考试成绩 期中 72 50 81 74 94 86 59 83 65 33 88 81 期末 84 63 77 78 90 75 49 79 77 52 74 90 绘数据图。X和Y看上去具有线性联系吗?
13. (ch6)
下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。 计数 年龄 收入 学生 信誉 归类:买计算机? 64 青 64 青 128 中 60 老 64 老 64 老 64 中 128 青 64 青 高 否 高 否 高 否 中 否 低 是 低 是 低 是 中 否 低 是 良 优 良 良 良 优 优 良 良 不买 不买 买 买 买 不买 买 不买 买
132 老 中 是 良 买 64 青 中 是 优 买 32 中 中 否 优 买 32 中 高 是 良 买 63 老 中 否 优 不买 1 老 中 否 优 买 14.预测拖欠银行贷款的贷款者(参P94) TID 有房 婚姻状年收入 拖欠贷况 款 1 是 单身 125K 否 2 否 已婚 100K 否 3 否 单身 70K 否 4 是 已婚 120K 否 5 否 离异 95K 是 6 否 已婚 60K 否 7 是 离异 220K 否 8 否 单身 85K 是 9 否 已婚 75K 否 10 否 单身 90K 是 一客户信息如下:X=(有房=否,婚姻状况=已婚,年收入=120K)
用贝叶斯分类法,预测记录的拖欠贷款类别。 (否) 年收入 60 70 75 85 90 95 100 120 125 220
可能的分裂
点 65 72.5 80 87.5 92.5 97.5 110 122.5 172.5
熵 0.82647 0.76355 0.68966 0.87549 0.84644 0.5 0.68966 0.76355 0.82647
原数据集合修正为: TID 有房 婚姻年收入 状况 1 2 3 4 是 否 否 是 拖欠贷款 单身 125K(>97.5) 否 已婚 100K(>97.5) 否 单身 70K(<=97.5) 否 已婚 120K(>97.5) 否
5 6 7 8 9 10
否 否 是 否 否 否 离异 95K(<=97.5) 是 已婚 60K(<=97.5) 否 离异 220K(>97.5) 否 单身 85K(<=97.5) 是 已婚 75K(<=97.5) 否 单身 90K(<=97.5) 是 P(是)=0.3 p(否)=0.7
p(是|X)?p(X|是)p(是)
p(X)
p(否|X)?p(X|否)p(否)
p(X)p(X|是)?p(有房?否|是)p(婚姻状况?已婚|是)p(年收入?120|是)
?100%*0*0?0p(X|是)?p(有房?否|否)p(婚姻状况?已婚|否)p(年收入?120|否)
?4/7*4/7*4/7?18.66%所以,他可能不拖欠贷款 最佳分裂点:97.5
15.(CH6,参P122)
考虑如下二元分类问题的训练样本: 顾客ID 性别 车型 衬衣尺类 码 1 2 男 男 家用 运动 小 中 C0 C0
3 男 运动 中 C0 4 男 运动 大 C0 5 男 运动 加大 C0 6 男 运动 加大 C0 7 女 运动 小 C0 8 女 运动 小 C0 9 女 运动 中 C0 10 女 豪华 大 C0 11 男 家用 大 C1 12 男 家用 加大 C1 13 男 家用 中 C1 14 男 豪华 加大 C1 15 女 豪华 小 C1 16 女 豪华 小 C1 17 女 豪华 中 C1 18 女 豪华 中 C1 19 女 豪华 中 C1 20 女 豪华 大 C1 1)计算整个训练样本集得GINI指标(0.5) 2)计算属性顾客ID的GINI指标(0) 3)计算属性性别的GINI指标(0.5)
4)那个属性更好?性别、车型还是衬衣尺码?(车型,因
为其GINI指标最低) 16. (CH6,参P122)
考虑如下二元分类问题的训练样本: 实例a1 标号 1 2 3 4 5 6 7 8 9 T T T F F F F T F T T F F T T F F T 1 6 5 4 7 3 8 7 5 a2 a3 目标类 + + _ + - - - + - 1) 整个训练样本集关于类属性得熵是多少?(0.9911) 2)关于这些训练样本,a1和a2的信息增益是多少?(0.2294,0.0072)
3)对于连续属性a3,计算所有可能的划分的信息增益
2.0是最佳分裂点。
4)根据信息增益,那个是最佳划分?(在a1,a2,a3中)(a1) 5)根据GINI指标,那个是最佳划分?(在a1,a2,a3中)(a1) 17.考虑如下二元分类问题得数据集(CH6,参P123) A T T T T T F F F T T B F T T F T F F F T F 类标号 + + + - + + + + + + 1)计算按照属性A、B划分时得信息增益。决策树归纳算法
将会选择那个属性?(GA=0.2813.GB=0.2565 A)
2)计算按照属性A、B划分时的GINI指标。决策树归纳算法将会选择那个属性?(不纯度降低:0.1371,0.1633, (B) 18.已知下表: (CH6,参P124) A T F T F T F T F B T T F F T T F F C T T T T F F F F 实例数 + 5 0 20 0 0 25 0 0 — 0 20 0 5 0 0 0 25 试建立一颗两层的决策树
19. (CH6,参,P139)贝叶斯分类
考虑两队之间的足球比赛:对0和1.假设65%的比赛队0胜出,剩余得比赛队1获胜。队0获胜得比赛中只有30%是在队1的主场,而对1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出呢?(队1)
x:东道主(0,1) y:胜利者(0,1)
队0取胜得概率:p(y=0)=0.65 队1取胜得概率:p(y=1)=0.35
对1取胜的比赛中75%是主场获胜:队1获胜时作为东道主的概率:p(x=1|y=1)=0.75
队0获胜得比赛中只有30%是在队1的主场:即队0取胜时队1作为东道主得概率: P(x=1|y=0)=0.3
比较P(y=1|x=1)和P(y=0|x=1)
p(y?1|x?1)?p(x?1|y?1)p(y?1)0.75?0.350.2625??p(x?1)p(x?1)p(x?1)p(x?1|y?0)p(y?0)0.3?0.650.195??p(x?1)p(x?1)p(x?1)
p(y?0|x?1)?P(y=1|x=1)>P(y=0|x=1) 所以,队1可能取胜。
20.(ch6,参P195,8) 考虑下列数据集: 实例 1 2 3 4 5 6 A 0 1 0 1 1 0 B 0 0 1 0 0 0 C 1 1 0 0 1 1 类 - + - - + +
7 8 9 10 1 0 0 1 1 0 1 1 0 0 0 1 - - + + 1)估计条件概率P(A=1|+), P(B=1|+), P(C=1|+), P(A=1|-), P(B=1|-), P(C=1|-)
(0.6,0.4,0.8,0.4,0.4,0.2)
2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测试样本(A=1,B=1,C=1)得类标号。(+)
3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。(独立) 14、(ch7)
假设数据集D含有9个数据对象(用2维空间的点表示): A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2)
采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求: (1)第一次循环结束时的三个簇的质心。 (2)最后求得的三个簇。
A1
A2 √49
A3 √41
B2 √5
B3
C2
C3
√64 √52 √1
B1 C1
√52 √10
√2 √36
√50 √74 √1 √4
√58
√17 √49 √16
第一次循环结束时:(A1,C3)质心为(2.5,2)或(3,2)
(B1,A3,C2),质心为:(8.7,5.7)或(9,6)
(C1,A2,B2,B3), 质心为:(2.7,8.3)或(3,8)
平方误差E=28 第二次循环
A1
A2
A3
B1 B2
B3
C1
C2
√3,2 0 √49 √41 √45
√64 √17 √52
5 √√9,6 √45 1 1 √65 √49 0 52 53 √√3,7 √25 √26 √40 √9 √2 √37 25
10
第二次循环结束时:(A1,B2,C3)质心为(2.3,2.7)或(2,3)
(A3,B1, C2),质心为:(8.7,5.7)或(9,6)
(A2, B3 ,C1), 质心为:(2.5,7.25)或(3,7)
平方误差E=21 第三次循环
A1
A2
A3
B1 B2
B3
C1
C2
C3 1
65
26
C3
√√
2,3 √2 √37 √45 √53
√√1 √√50 √9 √58 1
9,6 √45 1 1 √65 √49 0 √65
52 53 √√3,7 √4 √26 √40 √9 √2 √37 25
10
第三次循环结束时:(A1,B2,C3)质心为(2.3,2.7)或(2,3)不变
(A3,B1, C2),质心为:(8.7,5.7)或(9,6)不变 (A2, B3 ,C1), 质心为:(2.5,7.25)或(3,7)不变
平方误差E=21不变
15. (ch7)
已知四个点的坐标如下:
点 X坐标 Y坐标 P1 0 2 P2 2 0 P3 3 1 P4 5 1 其欧几里德距离矩阵: P1 P2 P3 P4 37
√
P1 P2 P3 P4 0 2.8 3.2 5.1 0 1.4 3.2 0 2 0 试进行单链、全链聚类,并画出树形图。 答案: 单链: P1 P2,p3 P4 P1 P1 0 P2,p3,p4 0 P1 0 2.8 5.1 P2,p3 0 2 P4 0 P2,p3,p4 2.8 P2,p3——P2,P3,P4——p2,p2,p4,p1 全链: 第一步同单链 P1 P2,p3 P1 0 3.2 P2,p3 0 P4
P4 5.1 3.2 0 P2,p3——P2,P3,P4——p2,p2,p4,p1 或:P2,p3——P2,P3,P1——p2,p2,p1,p4
16.请将下列属性分类:(ch7)
1)用AM和PM表示的时间(序数变量)
2)按度测出得0和360之间的角度(区间标度变量) 3)奥运会上授予得铜牌、银牌和金牌(序数) 4)学生的性别(二元)
5)用如下值表示得透光能力:不透明、半透明、透明(序数)
6)外套寄存号码(当你出席一个活动时,你常常可以将你的外套交给某个人,然后他给你一个号码,你可以在离开时来取)(名义)
17. 计算下表表示的混淆矩阵得熵和纯度 簇 #1 #2 #3 娱乐 财经 国外 都市 国内 体育 合计 1 27 326 1 89 465 0 333 8 11 827 105 4 253 16 676 33 29 693 1562 949
合计 354 555 341 943 273 738 3204
18.已知四个点的相异度矩阵:
点 P1 P2 P3 P4 P1 0 0.2 0.35 0.45 P2 0 0.3 0.4 P3 0 0.1 P4 0 试进行单链、全链聚类,并画出树形图。