毕业论文(赵艳丽初稿)

内容发布更新时间 : 2025/3/2 10:06:05星期一 下面是文章的全部内容请认真阅读。

基于遗传算法的k-means聚类挖掘方法研究

第二章 聚类分析

人类认识世界的一种重要方法是将认识的对象按照类别进行划分。同一事物往往具有更多的近似特征,因此分门别类地对事物进行研究远比在一个混杂多变的集合中研究更清晰、细致。“人以群分,物以类聚”,聚类作为一种重要的分类工具,在今天基于海量数据的分析中起着很大的作用。随着相关研究的开展,聚类分析被纳入数据挖掘范围,并成为数据挖掘中的一项核心技术。

2.1聚类分析的基本概念[30]

所谓聚类(Clustering)就是将物理对象或抽象对象的集合分成由相似对象组成的多个类。也就是说由聚类生成的簇是一组数据对象的集合,簇必须同时满足以下两个条件:(l)每个簇至少包含一个数据对象;(2)每个数据对象必须属于且唯一的属于一个簇。同一个簇中的数据对象尽可能相似,不同的簇中的数据对象尽可能相异。在许多应用中,可以将一簇中的数据对象作为一个整体来对待。

聚类就是按照一定的要求和规律对事物进行区分和分类的过程。在这一过程中没有任何关于分类的先验知识,也没有教师的指导,仅靠事物间的相似性作为类属划分的准则,因此属于无监督分类的范畴。

聚类分析(Cluster Analysis)则是指用数学的方法研究和处理给定对象的分类。它主要是从数据集中寻找数据间的相似性,并以此对数据进行分类。使得不同类别中的数据尽可能相异,而同一类数据之间尽可能相似,从而发现数据其中隐含的、有用的信息。

2.2数据挖掘对聚类算法的要求

聚类分析是数据挖掘中的一项重要功能,而聚类算法是目前聚类挖掘领域研究的核心。聚类算法的质量取决于算法对相似性的判别标准,算法的具体实现以及算法发现隐藏模式的能力。由于大型数据库、数据仓库十分复杂,数据挖掘中的聚类算法必然要面对由此产生的计算要求,具体要求如下:

(1) 可伸缩性:可伸缩性是指算法不仅对小数据集有效,对大数据集也应同样有效。目前许多聚类算法在小于200个数据对象的小数据集合上工作的很好,但是一个大规模的数据库可能包含几百万个对象,在这样的大数据集合样本上进

10

青岛科技大学研究生学位论文

行聚类可能会导致有偏差的结果,我们需要有高度可伸缩性的聚类算法。可伸缩性算法应该随着数据库大小的变化,其运行时间也应该线性变化。

(2) 处理不同类型属性的能力:算法不仅要能处理数值型的数据,还要有处理其他类型字段的能力,如布尔型,枚举型、序数型,或者这些数据类型的混合。

(3) 发现任意形状的簇:许多聚类算法基于欧氏距离或曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球形簇,但现实数据库中的聚类可以是任意形状,因此,研究能发现任意形状的簇的算法是很重要的。

(4) 输入参数对领域知识的弱依赖性:在聚类分析当中,许多聚类算法都要求用户输入一些参数,例如需要发现的聚类数。聚类结果通常都对用户输入这些参数十分敏感,并且对高维数据,这些参数有时相当难以确定的。这样不仅加重了用户的负担,也使得聚类质量难以保证。

(5) 能够处理异常数据:现实数据库中常常包含有异常数据,例如孤立点、未知数据、数据空缺或包含错误数据。有一些聚类算法可能会对这些数据很敏感,从而导致低质量的分析结果。我们希望聚类算法能够在聚类过程中检测到这些异常数据,然后删除它们或消除它们的负面影响。

(6) 对输入记录的顺序不敏感:有些算法对记录的输入顺序很敏感,对同一个数据集,当以不同的顺序输入时,用同一个算法处理可能得到不同的聚类结果,这是应当避免的。

(7) 满足约束条件:在实际应用当中,聚类可能会在有各种约束的情况下进行。对于聚类算法来说既满足约束条件,又取得好的聚类结果是非常具有挑战性的。在这种受约束的情况下我们希望聚类算法仍有好的表现。

(8) 可解释性和可用性:聚类的结果最终是面向用户的,因此其结果应当是容易解

>>鐏炴洖绱戦崗銊︽瀮<<
12@gma联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4 ceshi