数据挖掘实验报告 Weka的数据聚类分析 下载本文

内容发布更新时间 : 2024/5/7 20:08:37星期一 下面是文章的全部内容请认真阅读。

5、得出修改Seed值后的实验结果 === Run information === Scheme: weka.clusterers.SimpleKMeans -N 2 -S 8 Relation: auto93.names Instances: 93 Attributes: 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_capacity Passenger_capacity Length Wheelbase Width U-turn_space Rear_seat_room Luggage_capacity Weight Domestic class Test mode: evaluate on training data === Model and evaluation on training set === kMeans ====== Number of iterations: 6 Within cluster sum of squared errors: 282.17934341063733 Cluster centroids: Cluster 0 Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512 Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372 Cluster 1 Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019 Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863 Clustered Instances 0 41 ( 44%) 1 52 ( 56%) 6、对上述实验结果进行分析 7、显示散点图 我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。 二、实验分析 本次实验采用的数据文件是“1993 New Car Data ”。通过观察本次实验的实验结果观察,我们可以知道: 1、Number of iterations: 5,意味着本次实验把这93条实例聚成了5类,即K=5 2、Within cluster sum of squared errors: 282.17934341063733 这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。 3、Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)。 最后的“Clustered Instances”是各个簇中实例的数目及百分比。 五、实验总结 通过本次试验,使我对如何在Weka中进行聚类分析有了更深刻的了解,对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最好的聚类方案的相关问题,我还理解和运用的不是非常熟悉。在今后的学习中我将通过查阅文献和咨询老师、同学,对此加以熟悉和改进。