课程设计题目
1. 下表给出了1991年我国30个省、区、市城镇居民的月平均消费数据,所考 察的八个指标如下(单位均为 元/人)
X1 :人均粮食支出; X2 :人均副食支出;
X3 :人均烟酒茶支出; X4 :人均其他副食支出; X5 :人均衣着商品支出; X6 :人均日用品支出; X7 :人均燃料支出; X8 :人均非商品支出; 问题:
(1)求样品相关系数矩阵R;
(2)从R 出发做主成分分析,求各主成分的贡献率,及前两个主成分的累积贡献率; (3)求出前两个主成分并解释其意义.按第一主成分将30个省、区、市排序,结果如何? 表一 1991年我国30个省、区、市城镇居民的月平均消费数据 1 2 3 4 5 6 7 8 9 省市 山西 内蒙古 吉林 黑龙江 河南 甘肃 青海 河北 陕西 X1 8.35 9.25 8.19 7.73 9.42 9.16 10.06 9.09 9.41 8.70 6.93 8.67 9.98 6.77 8.14 7.67 7.90 7.18 8.82 6.25 10.60 7.27 13.45 10.85 7.21 7.68 7.78 7.94 8.28 X2 23.53 23.75 30.50 29.20 27.93 27.98 28.64 28.12 28.20 28.12 29.85 36.05 37.69 38.69 37.75 35.71 39.77 40.91 33.70 35.02 52.41 52.65 55.85 44.68 45.79 50.37 48.44 39.65 64.34 X3 7.51 6.61 4.72 5.42 8.20 9.01 10.52 7.40 5.77 7.21 4.54 7.31 7.01 6.01 9.61 8.04 8.49 7.32 7.59 4.72 7.70 3.84 5.50 7.32 7.66 11.35 8.00 20.97 8.00 X4 8.62 9.19 9.78 9.43 8.14 9.32 10.05 9.62 10.80 10.53 9.49 7.75 8.94 8.82 8.49 8.31 12.94 8.94 10.98 6.28 9.98 9.16 7.45 14.51 10.36 13.30 20.51 20.82 22.22 X5 17.42 17.77 16.28 19.29 16.17 15.99 16.18 17.26 16.36 19.45 16.62 16.67 16.15 14.79 13.15 15.13 19.27 17.60 18.82 10.03 12.53 13.03 9.55 17.13 16.56 19.25 22.12 22.52 20.06 X6 10.00 10.48 7.60 8.49 9.42 9.10 8.39 11.12 11.56 13.30 10.65 11.68 11.08 11.44 9.76 7.76 11.05 12.75 14.73 7.15 11.70 15.26 9.52 12.08 12.86 14.59 15.73 12.41 15.12 X7 1.04 1.72 2.52 2.52 1.55 1.82 1.96 2.49 1.53 1.66 1.88 2.38 0.83 1.74 1.28 1.41 2.04 1.14 1.78 1.93 2.31 1.98 2.21 1.26 2.25 2.75 1.15 1.75 0.72 X8 11.21 10.51 10.32 10.00 9.76 11.35 10.81 12.65 12.17 11.96 13.61 12.88 11.67 13.23 11.28 13.25 13.29 14.80 10.10 10.39 14.69 14.57 16.30 11.57 11.69 14.87 16.61 7.90 22.89 10 宁夏 11 新疆 12 湖北 13 云南 14 湖南 15 安徽 16 贵州 17 辽宁 18 四川 19 山东 20 江西 21 福建 22 广西 23 海南 24 天津 25 江苏 26 浙江 27 北京 28 西藏 29 上海
30 广东
12.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50 2. 下表是49位女性在空腹情况下三个不同时刻的血糖含量(用X1 ,X2 ,X3表示) 和摄入等量食糖一小时后的三个时刻的血糖含量(用小X4 ,X5 ,X6表示)的观测值(单位:mg/100ml).
问题:分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,求主成分的贡献率和各个主成分. 在两种情况下,你认为应保留几个主成分?其意义如何解释?就此而言,你认为基于S和R的分析那个结果更为合理?
表二 49位女性在空腹和摄入食糖后三个不同时刻的血糖含量 空腹 摄入食糖 编号 X1 X2 X3 X4 X5 X6 1 60 69 62 97 69 98 2 56 53 84 103 78 107 3 80 69 76 66 99 130 4 55 80 90 80 85 114 5 62 75 68 116 130 91 6 74 64 70 109 101 103 7 64 71 66 77 102 130 8 73 70 64 115 110 109 9 68 67 75 76 85 119 10 69 82 74 72 133 127 11 60 67 61 130 134 121 12 70 74 78 150 158 100 13 66 74 78 150 131 142 14 83 70 74 99 98 105 15 68 66 90 119 85 109 16 78 63 75 164 98 138 17 103 77 77 160 117 121 18 77 68 74 144 71 153 19 66 77 68 77 82 89 20 70 70 72 114 93 122 21 75 65 71 77 70 109 22 91 74 93 118 115 150 23 66 75 73 170 147 121 24 75 82 76 153 132 115 25 74 71 66 143 105 100 26 76 70 64 114 113 129 27 74 90 86 73 106 116 28 74 77 80 116 81 77 29 67 71 69 63 87 70 30 78 75 80 105 132 80 31 64 66 71 83 94 133 32 71 80 76 81 87 86 33 63 75 73 120 89 59 34 90 103 74 107 109 101 35 60 76 61 99 111 98 36 48 77 75 113 124 97 37 66 93 97 136 112 122 38 74 70 76 109 88 105 39 60 74 71 72 90 71 40 63 75 66 130 101 90 41 66 80 86 130 117 144 42 77 67 74 83 92 107
43 44 45 46 47 48 49 70 73 78 73 72 65 52 67 76 90 68 83 60 70 100 81 77 80 68 70 76 150 119 122 102 104 119 92 142 120 155 90 69 94 94 146 119 149 122 96 89 100 3. 考察1985年至2000年全国如下各价格指数: X1 :商品零售价格指数; X2 :居民消费价格指数; X3 :城市居民消费价格指数;
X4 :农村居民消费价格指数; X5 :农产品收购价格指数; X6 :农村工业品零售价格指数; 观测数据见下表. 问题:
按年份用下列方法进行系统聚类分析,画出谱系聚类图,并给出聚为3类 的结果.
(a)最短距离法;(b)最长距离法;(c)类平均距离法;
表三 全国各年度各种价格指数 年份 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
4. 考察1985年至2000年全国如下各价格指数: X1 :商品零售价格指数; X2 :居民消费价格指数; X3 :城市居民消费价格指数;
X4 :农村居民消费价格指数;
X1 128.1 135.8 145.7 172.7 203.4 207.7 213.7 225.7 254.9 310.2 356.1 377.8 380.8 370.9 359.8 354.4 X2 100.0 106.5 114.3 135.8 160.2 162.2 170.8 181.7 208.4 258.6 302.8 327.9 337.1 334.4 329.7 331.0 X3 134.2 143.6 156.2 188.5 219.2 222.0 233.3 253.4 294.2 367.8 429.6 467.4 481.9 479.0 472.8 476.6 X4 100.0 106.1 112.7 132.4 157.9 165.1 168.9 176.8 201.0 248.0 291.4 314.4 322.3 319.1 314.3 314.0 X5 166.8 177.5 198.8 244.5 281.2 273.9 268.4 277.5 314.7 440.3 527.9 550.1 525.3 483.3 424.3 409.0 X6 111.1 114.7 120.2 138.5 164.4 172.0 177.2 182.7 204.3 239.4 274.6 291.6 294.8 288.3 280.5 277.1
X5 :农产品收购价格指数; X6 :农村工业品零售价格指数; 观测数据见下表. 问题:
先将数据标准化,再按年份用下列方法进行系统聚类分析,画出谱系聚类图,并给出聚为3类的结果.
(a)最短距离法;(b)最长距离法;(c)重心距离法.
表四 全国各年度各种价格指数 年份 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 5. 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)。居民非商品支出x3(亿元)的关系。数据见表。
编号 1 2 3 4 5 6 7 8 9 10
货运总量 y (万吨) 160 260 210 265 240 220 275 160 275 250 工业总产值x1(亿元) 70 75 65 74 72 68 78 66 70 65 农业总产值x2(亿元) 35 40 40 42 38 45 42 36 44 42 居民非商品支出x3(亿元) 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0 X1 128.1 135.8 145.7 172.7 203.4 207.7 213.7 225.7 254.9 310.2 356.1 377.8 380.8 370.9 359.8 354.4 X2 100.0 106.5 114.3 135.8 160.2 162.2 170.8 181.7 208.4 258.6 302.8 327.9 337.1 334.4 329.7 331.0 X3 134.2 143.6 156.2 188.5 219.2 222.0 233.3 253.4 294.2 367.8 429.6 467.4 481.9 479.0 472.8 476.6 X4 100.0 106.1 112.7 132.4 157.9 165.1 168.9 176.8 201.0 248.0 291.4 314.4 322.3 319.1 314.3 314.0 X5 166.8 177.5 198.8 244.5 281.2 273.9 268.4 277.5 314.7 440.3 527.9 550.1 525.3 483.3 424.3 409.0 X6 111.1 114.7 120.2 138.5 164.4 172.0 177.2 182.7 204.3 239.4 274.6 291.6 294.8 288.3 280.5 277.1
(1)计算出y,x1,x2,x3的相关系数矩阵; (2)求y关于x1 ,x2,x3的三元线性回归方程; (3)对回归方程作显著性检验;
(4)对每一个回归系数作显著性检验;
(5)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;
(6)当x1、 x2 、x3的值为:68, 43, 2.5时,试对货运总量作出预测。
6. 某科学基金会的管理人员欲了解从事研究工作的数学家的年工资额y与他们的研究成果(论文、著作等)的质量指标x1、从事研究工作的时间x2,以及能成功获得资助的指标x3之间的关系。为此,按一定的设计方案调查了24位此类型的数学家,得数据见下表。
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.8 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1 y 3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 5.6 6.6 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9 x1 9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15 x2 6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.4 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0 x3
(1)计算出y,x1,x2,x3的相关系数矩阵; (2)求y关于x1 ,x2,x3的三元线性回归方程; (3)对回归方程作显著性检验;
(4)对每一个回归系数作显著性检验;
(5)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;
(6)假设某位数学家的关于x1、 x2 、x3的值为:5.1, 20, 7.2,试预测他得年工资额。 7. 在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。每块岩石测定了Cu,Ag,Bi三种化学成分,数据如下:
编号 1 2 含 矿 3 4 5 6 7 1 2 不 含 矿 3 4 5 6 7
(1)生成SAS数据集;
(2)用DISCRIM程序进行判别分析(假定先验概率相等,两类样本协差阵相等);
(3)在显著性水平?=0.1下讨论已知类型的两组企业特征是否有显著差异; (4)写出距离判别的线性判别函数;
(5)现在取一块岩石标本测得Cu、Ag、Bi分别为:2.95、2.15和1.54,试判别这块岩石标本是含矿还是不含矿,并统计已知类别样品的错判概率。
8. 为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)、
Cu 2.58 2.90 3.55 2.35 3.54 2.70 2.70 2.25 2.16 2.33 1.96 1.94 3.00 2.78 Ag 0.90 1.23 1.15 1.15 1.85 2.23 1.70 1.98 1.80 1.74 1.48 1.40 1.30 1.70 Bi 0.95 1.00 1.00 0.79 0.79 1.30 0.48 1.06 1.06 1.10 1.04 1.00 1.00 1.48 X2收益性指标(纯收入/总财产)、X3短期支付能力(流动资产/流动负债)、X4生产效率性
指标(流动资产/纯销售额)。
对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,调查资料下表,试对这些指标作判别分析。
(1)生成SAS数据集;
(2)用DISCRIM程序进行判别分析(假定先验概率相等,两类样本协差阵相等); (3)在显著性水平?=0.05讨论已知类型的两组企业特征是否有显著差异; (4)写出距离判别的线性判别函数;
(5)利用后验概率对8个待判企业(*)进行判别归类,并统计已知类别样品的错判概率。
(注:将下列图片数据转换成表格数据)
9.表1中的1995年到2007年我国国民经济数据(数据来自于中国统计年鉴),通过典型相
关分析来来找出邮电业和国民经济之间相互影响的内在规律,根据这个规律,给决策者提供一个当前如何发展邮电业的参考。采用如下指标来衡量我国各年份的邮电业:
x1:函件(亿件)
x2:快递(万件)
x3:移动电话年末用户(万户)
x4:固定电话年末用户(万户),
采用下面的指标来衡量我国各年份的经济(单位都是万亿)
y1:第一产业 y2:工业
y3:建筑业
y4:第三产业
(1)生成SAS数据集; (2)数据预处理;
(3)在显著性水平?=0.05讨论已知类型的两组特征数据是否有显著差异; (4)给出典型相关变量; (5)给出典型相关系数;
(6)给决策者提供一个当前如何发展邮电业的参考。
年份 1995 1996 1997 1998 1999 2000 2001
x1
79.55 78.68 68.55 65.51 60.52 77.71 86.93
x2
5562.7 7096.6 6878.9 7331.8 9091.3 11031.4
x3
362.9 685.3 1323.3 2386.3
x4 y1 y2
24950.6 29447.6 32921.4 34018.4 35861.5 40033.6 43580.6 47431.3 54945.5 65210.0
y3
3728.8 4387.4 4621.6 4985.8 5172.1 5522.3 5931.7 6465.5 7490.8 8694.3
y4
19978.5 23326.2 26988.1 30580.5 33873.4 38714.0 44361.6 49898.9 56004.7 64561.3 73432.9 84721.4
4070.6 12135.8 5494.7 14015.4 7031.0 14441.9 8742.1 14817.6
4329.6 10871.6 14770.0 8453.3 14482.9 14944.7
12652.7 14522.2 18036.8 15781.3 14036.2 20600.5 21422.2 16537.0 17237.8 26995.3 26274.7 17381.7 19771.9 33482.4 31175.6 21412.7 22880.3 39340.6 35044.5 22420.0 26988.0 46105.8 36778.6 24040.0
2002 106.01 2003 103.84 2004 2005 2006 2007
82.81 73.51 71.31
77230.8 10133.8 91310.9 11851.1
69.50 120189.6 54730.6 36563.7 28095.0 107367.2 14014.1 100053.5
10.自1990年12月上海证券交易所和深圳证券交易所先后挂牌交易以来,中国证券市场走过了近十七个年头,证券市场已经成为中国经济生活的重要组成部分,是中国经济发展的重要推动力量。表1为搜集金融上市公司所公布的各年份的利润及资产负债数据。试用因子分析对金融上市公司在一定时期经营绩效的优劣程度进行系统分析。
(1)生成SAS数据集; (2)数据预处理;
(3)计算原始变量相关系数阵以及提取因子的特征值、特征向量、各个因子的贡献率及累计贡献率;
(4)对结果进行分析:根据各因子得分以及他们的排名,来评价一下这些上市公司的经营状况,给决策者提供一个当前企业运营状况的参考。
(注:将下列图片数据转换成表格数据)