多元统计分析实验报告_聚类分析 下载本文

内容发布更新时间 : 2024/5/27 22:04:24星期一 下面是文章的全部内容请认真阅读。

武汉理工大学

实 验(实训)报 告

项 目 名 称 实验2―聚类分析 所属课程名称 多元统计分析 项 目 类 型 设计性实验 实验(实训)日期 年 月 日

班 级 学 号 姓 名 指导教师

武汉理工大学统计学系制

一、实验(实训)概述: 【目的及要求】 聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。 按具体的题目要求完成实验报告,并及时上传到给定的FTP和课程网站! 【基本原理】 系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。 【实施环境】(使用的材料、设备、软件) SPSS等软件 二、实验(实训)内容: 【项目内容】 聚类分析。 【方案设计】 共含两道题目: 第一题为基于距离矩阵的聚类分析;第二题为基于原始数据的聚类分析。 三、指导教师评语及成绩: 评语: 成绩: 指导教师签名: 批阅日期: 实验报告2 聚类分析(设计性实验)

实验原理:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。 实验题目一:

为了对11种语言——英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语及芬兰语进行比较研究,研究人员选取每种语言的1至10十个数字相应的单词列表分析。对于同一数字,某两种语言的第一个字母若相同,则称这两者在该数字上一致,否则非一致。将这11种语言两两比较后,计算每一对在十个数字上非一致的数目,得到下列距离矩阵:

E N Da Du G Fr Sp I P H Fi E 0 N 2 0 Da 2 1 0

Du 7 5 6 0

G 6 4 5 5 0

Fr 6 6 6 9 7 0

Sp 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0

P 7 7 6 10 8 5 3 4 0

H 9 8 8 8 9 10 10 10 10 0

Fi 9 9 9 9 9 9 9 9 9 8 0

(1)对这11种语言分别用最小距离法(single linkage)、最大距离法(complete linkage)、平均距离法(average linkage)进行聚类分析; (2)画出以上三种方法聚类分析结果的树状图;

(3)结合三种方法的树状图,你认为将11种语言分为哪几类比较合适? (4)用最大距离法将11种语言聚为3类,并将聚类结果存储在一个SPSS数据文件中。