内容发布更新时间 : 2024/11/8 2:49:28星期一 下面是文章的全部内容请认真阅读。
基于遗传算法的k-means聚类挖掘方法研究
VI
青岛科技大学研究生学位论文
第一章 绪论
1.1课题研究背景与意义
1.1.1数据挖掘概述
近年来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,加上使用先进的数据采集工具,人们积累的数据知识越来越多[1]。人们希望将这些数据转换成有用的信息和知识,以便更好地利用这些数据,用于决策。目前的数据库系统已经可以高效地实现海量数据的录入、查询、统计等功能,可以忠实地完成作为记录者的任务,但是却无法发现隐藏在这些数据背后的有用信息和知识[2],如关系和规则,更不能根据现有数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的有力手段,从而导致“数据爆炸但知识缺乏”的现象。面对“被数据淹没,却饥饿于知识”的挑战,数据挖掘应运而生,并得以蓬勃发展,越来越显示出其强大的生命力[3][4][5]。
数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术[6],它不但可以帮助人们从数据库,特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息,而且也可以帮助人们从不同角度上去分析它们,从而更有效地利用数据。它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的发展趋势。因此,数据挖掘正在成为一个崭新的、日益受到重视的热点研究领域。
1.数据挖掘的概念
数据挖掘(Data Mining, DM)指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程[7]。这个定义包括以下四个层次的含义:
(1) 数据源必须是真实的、大量的、含噪声的; (2) 发现的是用户感兴趣的知识;
(3) 发现的知识要可接受、可理解、可运用,最好能够用自然语言来表达发现结果;
(4) 并不是要求发现放之四海皆准的知识,是有特定前提和约束条件、面向特定领域的。
1
基于遗传算法的k-means聚类挖掘方法研究
2.数据挖掘的过程
数据挖掘是指一个指根据对数据分析建立对数据的特性以及数据之间关系描述的模式的过程。从工程角度来讲,数据挖掘过程并不是线性的,为了得到好的结果需要经过多次反复地重复挖掘步骤。目前人们对整个数据挖掘过程并没有给出非常清楚的划分,一般来说主要有以下几个步骤[8],见图1-1。
预处数据理预处理转化转换后挖掘后数据的数据数据挖掘模式识别确定业务对象确定业务对象原数据选取目标数据模式知识数据准备图1-1数据挖掘的过程
解释和评估Fig.1-1 The Process of data mining
(1) 确定业务对象。明确应用领域,清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。在这个步骤中,数据挖掘人员必须和领域专家以及最终用户紧密协作,明确实际工作对数据挖掘的要求。后续的数据准备和挖掘算法选择都是在此基础上进行的。
(2) 数据准备。数据准备又可分为三个子步骤:数据选取(Data Selection)、数据预处理(Data Preprocessing)和数据变换(Data Transformation)。数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是减少数据量或降低数据的复杂性,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特征或变量个数。
(3) 数据挖掘。该阶段首先根据第一步中对业务问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等,选取合适的数据挖掘算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求。然后运用选定的挖掘算法,对所得到的经过转换的数据进行挖掘,从数据库中发现有用的知识或模式。在这个阶段除了选择合适的挖掘算法外,其余一切工作都能自动地完成。
(4) 知识的解释和评估。数据挖掘阶段挖掘出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔出,也有可能模式不满足用户要求,这时则需要整个挖掘过程回退到前一阶段,如重新选取数据、采用新的数据变换方法、
2
青岛科技大学研究生学位论文
设定新的参数值,甚至换一种算法等。另外,由于数据挖掘最终要面向用户,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。
3.数据挖掘的任务[9]
数据挖掘可以解决大量的商业问题。基于这些商业问题的性质,把这些问题分成下面几种数据挖掘任务。
(1) 分类
分类是指基于一个可预测性属性把事例分成多个类别。每个实例包含一组属性,其中有一个可预测性属性——类别(class)属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数。分类数据挖掘中应用的最多的任务。
(2) 聚类
聚类也称细分,它基于一组属性对事例进行分组。在同一个聚类中的事例或多或少有相同的属性值。聚类是一种无监督的数据挖掘任务,没有一个属性用于指导模型的构建过程,所有的属性平等对待。后面本文将专门讨论数据挖掘中的聚类分析技术。
(3) 关联分析
关联分析又叫购物篮分析,它是当两个或多个数据项的取值之间重复出现且概率很高时,就表示这些数据项之间存在关联,可以建立起这些数据项的关联规则。一般用“支持度”和“置信度”两个阈值来淘汰那些没有用的关联规则。
(4) 时序模式
通过时间序列搜索出重复发生概率较高的模式,强调时间序列的影响。在时序模式中,需要找出在某个最小时间内出现概率一直高于某一最小百分比(阈值)的规则。
(5) 预测
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
(6) 偏差分析
偏差分析也叫孤立点(outlier)分析,它用来检测与前面观察的行为有重大改变的行为。数据库中的数据常有一些异常记录,从数据库中检测出这些偏差很有意义。偏差分析的基本方法是寻找观察结果与参照之间的差别,找出特殊的事例。最常用于信用卡欺诈行为检测和网络入侵检测。
4.数据挖掘的对象[10]
原则上讲,数据挖掘可以在任何类型的信息存储上进行,这包括关系数据库、数据仓库、事务数据库、WWW、面向对象数据库、对象-关系数据库、时间序列数据库、空间数据库、文本数据库、多媒体数据库等。挖掘的原始数据可以是结
3
基于遗传算法的k-means聚类挖掘方法研究
构化的,如关系数据库、数据仓库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
5.数据挖掘的应用
数据挖掘从理论研究到产品开发至用了短短数年,目前在国内外已经进入应用阶段。数据挖掘技术的应用十分广泛,在市场营销、保险、通信网络管理、科学研究、产品制造业、金融投资等行业都可以找到它的用武之地[11][12]。
(1) 零售业
零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋向,对于零售商制定销售策略是至关重要的。销售分析人员运用关联规则挖掘技术对大量的销售数据进行分析,可以发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销售比率,设计更好的货品运输与分销策略,减少商业成本。购物篮分析是数据挖掘技术应用在零售业中的一种有效方式,可用于销售搭配、产品目录设计、产品定价和促销等。
(2) 保险业
保险是一项风险业务,保险公司的一个重要工作就是进行风险评估。通过研究证明,可以利用数据挖掘技术来进行风险分析,在保险公司建立的保单及索赔信息数据库的基础上,寻找保单中风险较大的领域,从而得出一些实用的控制风险的规则,以指导保险公司的工作。数据挖掘技术在保险业中的应用,有利于保险公司开展业绩评价、财务预算、市场分析、风险评估和风险预测等,大大提高企业防范和抵抗经营风险的能力和水平,也为管理人员提供科学的决策依据。
(3) 电信业
在电信企业,借助数据挖掘技术,可以帮助企业分析用户使用电信业务的情况,评估用户的行为,优化广告投入,提升企业客户洞察力,发掘客户需求,提升客户的满意度和忠诚度。
(4) 科学研究
在信息量极为庞大的天文、气象、生物技术等领域中,所获得的大量试验和观测数据已经使传统的数据分析工具难于对付,因此迫切要求功能强大的智能化自动分析工具。这种需求推动了KDD技术在科学研究领域的应用发展。
(5) 其他行业 例如在医药、司法、工业等部门也得到了应用。
尽管数据挖掘的应用领域相当广泛,就我国当前的应用来看,尚处于萌芽阶段,企业大规模地运用数据挖掘技术的尚不多。随着IT技术在社会经济生活中的广泛应用,海量数据的产生己成为必然现象,数据挖掘在各个行业的应用研究也必然成为现实。因此,未来数据挖掘应用领域的研究将更加广泛。
4