数据挖掘及其在中医领域的应用研究 下载本文

内容发布更新时间 : 2024/6/26 18:31:46星期一 下面是文章的全部内容请认真阅读。

作者:丁维 蒋永光 宋姚屏 吴孟旭 李昆

【摘要】 介绍了数据挖掘的意义和任务,综述了近几年来数据挖掘在中医各领域中的 应用 , 分析 了 目前 存在的 问题 ,并探讨了今后的 发展 趋势。 【关键词】 数据挖掘 中医

随着 计算 机技术和 网络 技术的快速发展,在中医药的 现代 化过程中建立了很多的数据库。堆积在数据库中的信息呈超指数爆炸式增长。例如中医药 科技 信息数据库就有50个子数据库、110个表单及数百个自动生成的中间表、800余个著录项目,涵盖所有中医药有关医、药及学术的 内容 。而数据挖掘技术的发展使我们有可能从这些海量数据中发现新的知识,发现数据背后隐藏的关系和规则,还可以对未知的情况进行预测。多学科交叉目前正成为增强科技创新的重要途径,数据挖掘正是从统计学、数据库、机器 学习 等多门学科中发展起来的。

1 数据挖掘介绍 1.1 数据挖掘的定义

数据挖掘(datamining)也称为数据库知识发现,为解决上述矛盾提供了强有力的工具[1]。数据挖掘这一术语出现于1989年,其定义几经变动,本 研究 中引用frayyad um等提出的对数据挖掘的定义[2]。 数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。其中:

① 有效性要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才能保证挖掘出来信息的可靠性。

② 新颖性要求发现的模式应该是从前未知的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

③ 潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值和可实现的,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。

④ 最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。发现的知识要可接受、可理解、可运用,最好能用 自然 语言表达所发现的结果。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。

⑤ 非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的、可能的有用的信息。要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。

数据挖掘的结果通常表示为概念(concepts)、规则(rules)、 规律 (regularities)、模式(pattern)、约束(constraint)、可视化(visualization)等形式。这些知识可以直接提供给决策者,用于辅助决策过程;或者提供给领域专家,修正专家的已有的知识体系;也可以作为新的知识转存到应用系统中,作为实际事务处理中决策的依据[3]。 2 数据挖掘的任务

数据挖掘的任务主要是预测和描述。预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。描述是指找到描述数据的可理解模式。预测 方法 有统计分析、关联规则和决策树预测、回归树预测等。其中关联规则反映了一个事务与其他事务之间存在关联,那么就能根据其他已知事务预测到另一个事务。描述性方法主要有数据分类、回归分析、聚类、变化和偏差分析、模式发现等。 3 数据挖掘在中医药中的应用

中医药的发展也需要多门学科的交叉应用。数据挖掘最初在生物医学中的应用是在对基因组测序数据的分析,因为人类基因组计划研究中产生了数十亿的核苷酸和上百万的氨基酸,传

统的统计方法无能为力。中医学具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究,而适宜与数据挖掘类似的从整体观上入手的研究方法。数据挖掘可以从海量数据中挖掘出潜在的规律,数据挖掘的结果一部分可能与传统的诊疗规律相符,不符合的部分可能是潜在的新知,也可能是没有意义的,这都需要在相应目标领域专家的指导下进行解释和评价。将数据挖掘(dm)和知识发现(dmkd)应用于中医药领域的研究,是中医药现代化研究的重要组成部分[1],必将促进中医药的发展。而数据挖掘在中药药谱研究和新药开发中取得了一定进展,本研究主要对其在中医以下领域的研究作一介绍。 3.1 证实质的研究 中医的“证”又称“证候”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据。证候是中医诊断的核心概念和 理论 精髓,具有整体性、抽象性、时间性和相对稳定性的特点。现在对证实质的研究多从西医的生理理化指标来揭示证的实质,但实践中却发现缺少证的特异性指标。如果从分子生物学的角度,利用数据挖掘技术对中医证与相关基因的对应关系,可能取得更好的结果。通过研究“证”和基因多态性之间的内在联系,从基因多态性所带来的该基因功能上的变化,由此探寻“证”的相关基因表达谱。