一种结合文档频率和互信息的特征项提取方法 下载本文

内容发布更新时间 : 2024/5/2 7:39:01星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

一种结合文档频率和互信息的特征项提取方法

作者:桑书娟 王敏

来源:《电脑知识与技术》2012年第11期

摘要:该文探讨了分类系统中的三种不同特征项提取方法,文档频率(DF)、信息增益(IG)、互信息算法(MI),并提出了一种结合文档频率和互信息的特征提取方法。通过实验证明,该算法在一定程度上能得到较高的分类准确率。 关键词:文本过滤;特征项提取;向量空间模型

中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)11-2593-02 A New Feature Extraction Method of Combining DF with MI SANG Shu-juan, WANG Min

(An yang Institute of Technology, Anyang 455000, China)

Abstract:This paper discusses the classification system in three different feature extraction methods, document frequency(DF),information gain(IG),mutual information(MI). A new feature extraction method which combines IG with MI is proposed. Proved by experiment, this algorithm to a certain extent, can get higher classification accuracy rate.

Key words: Text filtering;feature extraction;vector space model;

在文本过滤中,特征项的提取是文本表示的关键部分。选出的项越具有代表性,语言层次越高,项所包含的信息就越丰富越完整,但分析的代价就越大[1]。 1特征项提取算法

常用的特征提取方法主要有以下几种:文档频率、信息增益、互信息,特征权等[2]面我们分别来介绍一下:

1.1文档频率(Document Frequency,DF)

文档频率是指文档集中出现了某个特征项的文档的个数。在文本分类中,特征t的文档频率DF在训练集中含有该特征的文本 数目[3]下:

龙源期刊网 http://www.qikan.com.cn

若词条的DF值在预先设定的两个阈值之间,则选取其为特征项,其他情况删除。 1.2信息增益(Information Gain,IG)

信息增益表示文档中包含某一属性时文档类的平均信息量。它定义为某一属性在文档中出现前后的信息熵之差,并通过统计某个特征项t在一篇文档中出现或不出现的次数来预测文档的类别[4]

1.3互信息(MutualInformation,Ml)

互信息体现特征项与类别的相关程度。基本思想是:特征词t与类别C的互信息越大,说明特征t中包含的与类别有关的鉴别信息就越多。互信息的估计值定义为[5] 2一种结合文档频率(DF)和互信息(MI)的特征提取方法

该方法的过程是:首先对输入的文本进行分词处理,接着进行文本向量降维处理,然后运用文档频率方法初步提取特征项,即计算出每个词条的文档频率值,保留值在预定阈值之间的词条作为文本的特征向量。经过以上处理,此时得到的初步特征向量由筛选过的词和所有的词组向量组成,接着将词组向量进行分类,并对每一类进行互信息计算,两个特征词之间的互信息值的计算公式是[7]

其中,P(Ti,Tj)表示在训练库中Ti与Tj在同一文档中出现的概率,P(Ti)表示在训练库中,词Ti出现的概率。

最后将每一类中的互信息值最高的词组留下。这样得到的特征项是第一次经过DF提取得到的词和第二次经过MI筛选得到的词组混合组成的。 3实验结果与分析

由实验结果分析比较可以可知,这种结合文档频率和互信息的特征提取方法的准确率测量值要比单纯基于文档频率特征项提取方法平均高出10~15个百分点;比基于互信息的计算方法平均高3~7个百分点。因此可以得出结论,该文所提出的这种特征项提取方法考虑了词语的上下文语义联系,进一步提高了过滤的精度和准确率。 参考文献:

[1]杨春喜.Web文本内容过滤关键技术的分析与研究[D].广州:暨南大学,2007.

[2] Hwee Tou Ng,Wei Boon Goh,Kok Leong Low.Feature selection,perception learning,and a usability case study for text categorization[C]. Proe.of 20th ACM International conference on research and development in information retrieval,1997,67-73

龙源期刊网 http://www.qikan.com.cn

[3]胡燕,吴虎子,钟珞中文文本分类中基于词性的特征提取方法研究[J]武汉理工大学学报,2007(4): 132-135.

[4]呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报:自然科学版, 2008(3):35-37.

[5]唐亮,段建国,许洪波.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133.

[6]李晓微.基于内容的中文文本过滤关键技术研究[D].长春:东北师范大学,2008.