数据挖掘技术调研 下载本文

内容发布更新时间 : 2025/1/24 2:55:09星期一 下面是文章的全部内容请认真阅读。

1

1.定义:

数据挖掘(Data Mining,或称 DM)又称为数据库中的知识发现(Knowledge Discovery from Database,简称 KDD)数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有随机性的实际应用数据中,提取出隐含其中潜在有用的知识或模式的过程。

2.基本概念:

文献:《数据挖掘算法及其应用研究》 《数据挖掘中聚类分析算法的研究与应用》

近十多年来,数据挖掘在全世界信息产业界受到了极大的关注,并飞速发展,究其原因,在于全球信息技术的迅速发展和互联网的快速普及造成了数据过量和信息爆炸,人们迫切需要有这样一种技术可以帮助他们从浩如烟海的信息中找出他们真正需要的、有价值的那一部分信息和知识。而数据挖掘正是解决以上问题的有效手段。关于数据挖掘,最简单明确的表述是从海量、混杂的数据里挖掘或者提取有用模式或知识的一个过程。数据挖掘可以说是一门跨多个学科和知识领域的新兴课题,它将人们应用数据的方式从原本简单的查询提升至在数据里挖掘与发现知识以对决策行为提供支持。而为了能满足人们从数据里发现知识的需求,来自不同领域,如数据库领域、模式识别领域、机器学习领域、人工智能领域、统计学领域、可视化领域和并行计算领域等的诸多优秀的研究者和技术专家都致力于研究这个新兴的课题——数据挖掘,不断研究和创造出优秀的研究成果,也使得数据挖掘成为了新的技术热点。通过数据挖掘可得到多种知识,而这些知识最终可以应用到多个方面,包括给相关组织和个人提供决策支持。在一般情况下用户并不了解大量的数据中蕴藏了哪些有意义有价值的信息,所以,对数

2

据挖掘系统来说,应该同时能够搜索发现多种形式的信息知识,进而满足用户的实际要求和期望。 。其主要有三个特点: (1)海量数据。

(2)未知的有价值的规律。数据挖掘所发现的规律,应该是有用的并且不应该是显而易见的,应该是对不同的任务来说有意义的、隐藏的规律。

(3)数据挖掘是一个过程。他需要数据理解、业务理解、数据准备、评估、建模、部署等一系列步骤,数据挖掘人员的业务能力和分析能力对成功有重要的影响。

数据挖掘的主要有任务有两点:描述型和分类预测型的任务。描述型的任务是指通过数据库数据的自身内部联系,从而得到数据库中数据关系或者数据库的概要描述。分类预测型的任务是指通过现有的已经知道的分类的数据学习模型以及类的标签的区别,称作为预测型和分类型。

3.数据挖掘的由来:

上世纪九十年代, 随着数据库系统的广泛应用和网络技术的高速发展, 数据库技术也进入一个全新的阶段, 即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据, 并且数据量也越来越大。在给我们提供丰富信息的同时, 也体现出明显的海量信息特征。信息爆炸时代, 海量信息给人们带来许多负面影响, 最主要的就是有效信息难以提炼。过多无用的信息必然会产生信息距离( 信息状态转移距离, 是对一个事物信息状态转移所遇到障碍的测度, 简称DIST或DIT )和有用知识的

3

丢失。这也就是约翰·内斯伯特( John Naisbert) 称为的“ 信息丰富而知识贫乏”窘境。因此, 人们迫切希望能对海量数据进行深入分析, 发现并提取隐藏在其中的信息, 以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能, 无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势, 更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下, 数据挖掘技术应运而生。

4.数据挖掘的研究及其应用现状:

文献:《数据挖掘研究现状及发展趋势》 《数据挖掘研究现状综述》 《数据挖掘综述》

每年有KDD、PAKDD和ECML&PKDD三大学术会议

( 1) KDD( Knowledge Discovery in Databases) 国际学术大会数据挖掘技术出现于20世纪80年代末, 它促成了数据库中的知识发现( KDD) 产生。在1989年美国底特律召开的第十一届国际联合人工智能学术会议上首次提到知识发现这一概念, 到1993年, 美国电气电子工程师学会( IEEE) 的知识与数据工程( Knowledge and Data Engineering) 会刊出版了KDD技术专刊, 发表的论文和摘要体现了当时KDD的最新研究成果和动态。据统计显示, 从1995年至2007年召开的13次KDD国际学术大会中, 9次都在美国主要城市( 如纽约、芝加哥、华盛顿等) 举办, 其余4次均在加拿大举办,从未在北美以外地区举办过。