SAS实验9 下载本文

内容发布更新时间 : 2024/5/18 21:25:54星期一 下面是文章的全部内容请认真阅读。

实验9 聚类分析

1 实验目的

掌握使用 SAS 软件进行聚类分析。

2 实验内容

改革开放30年来,我国经济取得了很大的发展。但同时经济发展中也存在着很多问题,这些问题越来越成为我国经济持续发展的障碍。地区发展不平衡就是众多问题中的一个。发达城市都集中东部地区,广大中西部地区和农村地区长期处在不发达状态。地区发展的失衡使得我国经济难以取得全面的发展,造成的后果是我国经济总量和总体发展速度十分显著,但人均水平长期徘徊在世界的中下层次,大多数人口难以享受到改革的成果。另外,地区发展的失衡使得人口过度迅速地向少数发达城市集中,已经造成这些城市处于负荷运作,给这些城市的治安、环境和居住条件等带来了巨大的挑战,给城市居住和生活水平造成严重的影响。也由于地区之间发展的失衡,使得各地区之间的经济难以形成一个顺畅的经济链,从而形成一个良性的经济发展循环体。要解决好这个问题,首要的问题是对全国范围内,各省市范围内的经济体进行分类,正确划分发达经济体和不发达经济体,进而制定出有针对性的经济政策。

基于搜集到的统计资料,为了得出2007年江苏省的13个地市的国民经济分布规律,在众多衡量经济水平的指标中我们将采用下列指标:

x1:年末户籍人口(万人) x2:城镇化率(%)

x3:地区生产总值GDP(亿元) x4:第三产业占GDP的比重 (%) x5:城镇固定资产投资额(亿元) x6:社会消费品零售总额(亿元) x7:城市居民人均可支配收入(元) x8:恩格尔系数(城市)(%) x9:农村居民人均纯收入(元) x10:恩格尔系数(农村)(%)

下面的表格是2007年江苏省各市国民经济主要指标值。

地 区 苏州 无锡 常州 南京 镇江 南通 扬州 泰州 徐州 淮安 盐城 宿迁 x 1x 2x 3x 47.4 9.1 18.6 11.0 24.5 35.1 35.3 33.2 36.0 36.2 34.8 34.1 32.0 x 5x 6x 7x 8 x9 9033 8020 7668 6905 6586 6469 5534 4828 5010 6092 4783 x10 624.43 65.6 5700.85 461.74 67.4 3858.54 357.38 60.9 1881.28 617.17 76.8 3283.73 268.78 59.6 1206.69 766.13 48.6 2111.88 459.25 50.2 1311.89 500.70 47.6 1201.82 940.95 45.8 1679.56 618.18 765.23 542.00 534.00 39.9 531.53 34.1 1704.27 1250.05 21260 37.9 10475 1180.74 1134.75 20898 39.8 10026 748.89 363.73 633.94 438.35 347.73 769.59 409.56 394.91 470.06 256.18 610.85 331.36 736.54 418.90 321.07 543.01 249.08 269.40 433.74 158.87 19089 35.0 16775 38.7 16451 38.5 15057 37.9 14940 43.1 14875 34.9 13254 38.9 12164 38.9 13857 38.5 9468 42.4 1443.40 1380.46 20317 35.3 35.7 37.6 38.0 37.4 39.4 37.9 38.9 38.1 39.0 43.7 43.2 41.7 46.0 连云港 482.23 40.5 809.79 43.7 1371.26 对2007年江苏省的13个地市的国民经济进行了聚类分析,试探讨依据选取的若干主要经济指标进行的分类是否与传统上将江苏省划分为苏南、苏中和苏北三部分是否一致。结果供有关决策部门参考。 (1)编程:

data libname.sy1;

input dq$ x1 x2 x3 x4 x5 x6 x7 x8 x9 x10; label Dq=\地区\

x1 =\年末户籍人口(万人)\ x2=\城镇化率(%)\ x3=\地区生产总值GDP(亿元)\x4 =\第三产业占GDP的比重 (%)\

X5=\城镇固定资产投资额(亿元)\ x6=\社会消费品零售总额(亿元)\x7=\城市居民人均可支配收入(元)\ x8=\恩格尔系数(城市)(%)\ x9=\农村居民人均纯收入(元)\ x10=\恩格尔系数(农村)(%)\cards; 苏州 624.43 65.6 5700.85 7.4 1704.27 1250.05 21260 37.9 10475 35.7 无锡 461.74 67.4 3858.54 9.1 1180.74 1134.75 20898 39.8 10026 37.6 常州 357.38 60.9 1881.28 18.6 748.89 610.85 19089 35.0 9033 38.0 南京 617.17 76.8 3283.73 11.0 1443.40 1380.46 20317 35.3 8020 37.4 镇江 268.78 59.6 1206.69 24.5 363.73 331.36 16775 38.7 7668 39.4 南通 766.13 48.6 2111.88 35.1 633.94 736.54 16451 38.5 6905 37.9 扬州 459.25 50.2 1311.89 35.3 438.35 418.90 15057 37.9 6586 38.9 泰州 500.70 47.6 1201.82 33.2 347.73 321.07 14940 43.1 6469 38.1 徐州 940.95 45.8 1679.56 36.0 769.59 543.01 14875 34.9 5534 39.0 连云港 482.23 40.5 618.18 36.2 409.56 249.08 13254 38.9 4828 43.7 淮安 534.00 39.9 765.23 34.8 394.91 269.40 12164 38.9 5010 43.2 盐城 809.79 43.7 1371.26 34.1 470.06 433.74 13857 38.5 6092 41.7 宿迁 531.53 34.1 542.00 32.0 256.18 158.87 9468 42.4 4783 46.0 ; run;

proc cluster data=libname.sy1 standard method=ward

outtree=otree pseudo; copy dq; run;

“NCL”为类别数量,表示新类别形成后类别的总数;

“--Clusters Joined---”为合并的类别,指明这一步合并了哪两个类,有两列。其中OBxxx表示某一个原始样品,而CLxxx表示在某一个聚类水平上产生的类。 “FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏R2,“RSQ”是R2,“PSF”为伪F统计量,“PST2”为伪t2统计量,“Tie”指示距离最小的候选类对是否有多对,本例全无。

(2) 确定分类个数

1) R2统计量(列标题为RSQ)用于评价每次合并成NCL个类时的聚类效果。R2越大说明NCL个类越分开,故聚类的效果好。R2的值总是在0和1之间,而且R2的值总是随着分类个数NCL的减少而变小。通过查看R2值的变化,可以确定n个样品分为几类最为合适。本例中,分为3个类之前(NCL>3)的并类过程中R2的减少是逐渐的,改变不大;当分为3类时的R2 = 0.682,而下一次合并后分为2类时R2下降较多(R2 = 0.534)。这时通过分析R2统计量可得出分为3个类是较合适的。

查看R2变化的大小也可以由合并类时的半偏R2(列标题为SPRSQ)得到。半偏R2的值是上一步R2与该步R2的差值,故某步的半偏R2值越大,说明上一步合并的效果好。本例中半偏R2最大和次大分别为NCL = 1和2,说明根据半偏R2准则分为两个类或三个类是较合适的。