多元统计分析我国主要城市的聚类分析课程设计 下载本文

内容发布更新时间 : 2024/5/19 13:55:32星期一 下面是文章的全部内容请认真阅读。

由上表可以由分类个数得到分类情况,

如果我们选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下:

第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐

第二类:天津、石家庄、沈阳、济南、郑州 第三类:上海、南京、合肥、武汉、昆明

第四类:长沙、广州、南宁、海口、杭州、福州、南昌、昆明 第五类:重庆、成都、贵阳、西安

如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下:

第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐

第二类:天津、济南、郑州、沈阳、石家庄

第三类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、

第四类:重庆、成都、贵阳、西安

如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下:

第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州

第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明

第三类:重庆、成都、贵阳、西安

如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下:

第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州

第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明、重庆、成都、贵阳、西安

5. K均值聚类分析

5.1. 基本思想

把样品粗略分成K个初始类,进行修改,逐个分派样品到其最近均值得类中。重新计算接受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。

5.2. 操作步骤

(1)在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将 城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。 (2)输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。

(3)选择统计量指标:单击 选项按钮,打开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。 (4)单击确定按钮,执行操作,输出结果。

5.3. 结果分析

(1)初始类中心 初始聚类中心 平均气温 平均相对湿度 降水量 日照时数 1 10.60 52.30 240.10 2759.30 2 聚类 3 17.30 71.80 1011.30 1995.50 4 22.90 70.80 1736.10 1609.20 17.70 76.70 927.50 1010.20

上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。

(2)迭代历史记录

下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。 迭代历史记录a 聚类中心内的更改 迭代 1 2 3 1 203.671 64.882 .000 2 190.792 .000 .000 3 156.579 44.523 .000 4 208.245 82.400 .000 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。

(3)聚类成员

聚类成员 案例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 城市 北京 天津 石家庄 太原 呼和浩特 沈阳 长春 哈尔滨 上海 南京 杭州 合肥 福州 南昌 济南 郑州 武汉 长沙 广州 南宁 聚类 1 1 3 1 1 1 1 1 4 3 4 3 4 4 3 3 4 2 4 4 距离 169.368 344.195 302.104 134.141 171.727 331.330 196.540 114.503 287.494 248.519 106.912 312.151 180.329 196.627 309.464 199.182 224.272 310.696 285.826 200.245

上表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。

把地区分为4类时,

第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐

第二类:长沙、重庆、成都、贵阳、西安 第三类:南京、河南、济南、郑州 第四类:广州、南宁、海口、南昌、武汉

我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进行分类。 (4)最终聚类中心 最终聚类中心 平均气温 平均相对湿度 降水量 日照时数 1 8.94 54.40 431.23 2572.81 2 聚类 3 15.95 66.62 815.17 1959.23 4 20.34 71.15 1450.51 1620.59 17.44 76.12 1102.82 1085.46

该表为最终聚类中心表,由此表,再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。

(5)最终聚类中心间的距离 最终聚类中心间的距离 聚类 1 2 3 4 1 2 1632.112 3 723.936 919.955 4 1395.020 638.189 719.990 1632.112 723.936 1395.020 919.955 638.189 719.990