内容发布更新时间 : 2024/11/16 12:01:34星期一 下面是文章的全部内容请认真阅读。
Web信息抽取与网页摘要的研究与应用
准确地提取出网页的主题内容并生成文档摘要已经成为一个非常重要而有意义的研究方向。随着万维网的飞速发展,在Internet上形成了不计其数的以HTML网页形式存在的信息源,但是Web页面通常含有很多用户并不关心的信息,如广告链接和图像等,它们分布于网页四周,甚至附着在正文旁边,文档主题很不明确,使用户不能迅速定位所需信息,也会增大搜索引擎索引文件的大小,影响搜索的速度和准确率。本文分析了网页与普通文本的不同,根据Web页面的特征,在分析其结构的基础上,提出了网页信息抽取的可行性方法。
基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。因此,在把网页解析成普通DOM树的基础上,添加了相关度属性和信息熵值属性作为判断依据,不仅提高了准确率,也减小了结果对信息熵阈值的依赖性。用节点频度值而不是信息熵值来进行噪音块的判断,在一定程度上提高了效率。
针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在0.96以上,是Web信息抽取的一种有效手段。在以上工作的基础上,针对Web信息检索的需求和Web文档的特点,采用拟人思维,给出了一种以段落结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的段落结构;在段落结构的指导下,使用特征分析和启发式规则来提取文档的关键词、关键句,生成文档的摘要。
在实验评估中,该方法取得了令人满意的摘要质量。将网页信息抽取器应用到公安局“网上作战”系统的一个子系统,即公安网刑侦信息抽取系统与发布系统中,实现公安网刑侦信息的抽取和摘要,并为公安局“网上作战”系统中的其他
子系统,如信息比对系统等提供数据支持,取得了不错的效果。