一种用于Web信息抽取的页面信息本体自动学习方法 下载本文

内容发布更新时间 : 2024/9/20 2:43:06星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

一种用于Web信息抽取的页面信息本体自动学习方法

作者:柳佳刚,龙军,李泽军

来源:《计算技术与自动化》2011年第01期

摘 要:针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF?IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。 关键词:本体学习;信息抽取; 中图分类号:TP391.1 文献标识码:A

An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction

关联规则

(1.Department of Computer Science, Hunan Institute of Technology, Hengyang 421002,China; 2.College of Information Science and Engineering, Central South University, Changsha 410075,China)

Abstract:According to the weakness of building ontology needs manually designated concepts and instances from the basic information of web, an automatic ontology learning approach based on based on DOM for the similar path of information items and an approach for identifying automatic implemented by using an approved TFIDF statistic method and an algorithm of composite event association rule, the information item ontology is built, the manual workload for building ontology is reduce

龙源期刊网 http://www.qikan.com.cn

1 引 言

本体正在越来越多的计算机应用中发挥重要作用。基于概念模型的多记录信息抽取是通过设计构造描述特定内容的本体和基于本体的Web信息抽取规则来实现抽取

[1]

,这类信息抽取

有比较高的抽取正确率。基于本体的Web信息抽取关键是建立本体模型和基于本体的Web信息抽取规则。本体的构建过程中,领域特性表现得极其明显,建立领域本体的过程需要领域专家的参与,过程复杂、周期较长

[2]

。文献[3]提出构建样本页面信息本体的方法,即在样本

页面中对用户感兴趣的信息项构建本体。只要描述要抽取信息项的概念、类型和实例中的值,就能完成用户所需信息项的本体描述,这为基于本体的Web信息抽取提供了一种新的思考方法。但这种方法需要手工设定要抽取信息项的概念、类型和实例中的值来制定Web页面信息项本体,处理大量Web页面时,人工工作量仍然比较大。本文在文献[3]的页面信息本体定义的基础上,自动学习出页面信息项本体,为该方法的实际推广降低了人工工作量。 2 页面信息本体定义

一个网页中待抽取的信息项形式如图1,其中PreA…PreE表示网页中要抽取信息项的前导符、Content表示网页中要抽取的信息项。文献[3]中页面信息本体就围绕要抽取的信息项建立。

图1网页的待抽信息项中所含的内容就是需要抽取的目标信息,因此可以根据本体形式化定义的格式对每一个所需要抽取的信息项建立本体。用形式化定义的本体结构将第一个数据项“ContentA_value”描述成为“ContentA”概念结构,可以得到以下形式描述: ConceptContentA Super: {PreA}; Type: String;

Value: {ContentA_value} EndContentA

文献[3]将本体形式化描述的[Super:{Super-name}*]部分用来表示由概念构成的一个前导词;{:{>,}*;}*部分则用来表示待抽取数据的实际内容。使用页面本体抽取Web信息的具体方法请参阅文献[3]。 计算技术与自动化2011年3月

第30卷第1期柳佳刚等:一种用于Web信息抽取的页面信息本体自动学习方法 3 页面信息本体自动学习技术路线

龙源期刊网 http://www.qikan.com.cn

以HTML格式表示的Web页面文档是当前Internet信息的主要组织形式。本文旨在实现从HTML页面中自动学习页面信息本体,从Web页面数据中找出本体语义概念的模式及其关系。

图2给出了用于Web信息抽取的页面信息本体自动学习的基本处理过程。其主要技术路线是:收集想要进行信息抽取的Web页面,对页面进行预处理去掉图像、动画、音频、超链接等;使用文档结构模型(DOM)对经过预处理的页面集合进行机器归纳学习运算,得出同一类Web页面中稳定出现的信息块;将信息块中的文本数据看成一个文档,建立改进的PAT-tree,使用互信息统计的技术,识别出候选短语集合;再利用改进的TF?IDF统计方法计算候选短语的重要程度权重,通过对权重值排序输出用于构建本体中概念的领域关键词;使用关联规则算法计算领域概念和人工总结的抽取分隔符之间的支持度和置信度得出待抽信息项的前导关键词;再在概念的值。

图2 页面信息本体自动学习的过程 3.1 Web页面集的预处理

预处理需要包括三个步骤:(1)因为一个Web页面中包含了图像、动画、音频、超链接等丰富的信息表达方式,但最主要的信息还是文字信息。过滤掉那些不包含句子主题或关键概念的“噪音”文档,如图像、动画、音频、超链接等;(2)由于HTML本身的原因,绝大多数HTML文档的书写一般都不规范。这不利于对HTML所含数据的处理。因此,在处理前需要进行HTML标签的规范化处理,形成语法规范的XHTML文档到文档中信息项的内容

3.2 信息块归纳学

Web页面中有很大一部分是数据导向型页面。数据导向型页面的内容通常是从数据库中得到数据,再分别插入已有的模板中,在HTML生成树上以某个或某几个嵌套的表格形式呈现(包括表的行TR、表的单元TD、表头TH等)。这些嵌套结构就构成了信息块。用户感兴趣的信息,即目标信息,也在这些信息块集合当中。在这些嵌套的表格中,相同结构的信息块内部的数据容器基本相同(如统一采用表格标签作为数据容器);相同结构的信息块处于DOM树的同一层次,即“兄弟”或“堂兄弟”(如存放在同一层次的、中)。

对于一个数据导向型页面组成的页面集合,Web页面中的所含的语义信息也都集中在这些嵌套的表格容器当中。

[5]

[4]

上对前导关键词进行前缀搜索识别与其关联的半无限长串,得出本体中

;对于规范化的XHTML文

档,DOM能够在内存中将其表示为一棵树的结构。使用解析器Parser就可以遍历树的方法得

和DOM树路径

[6]