全文检索系统技术方案 下载本文

内容发布更新时间 : 2024/12/24 9:14:39星期一 下面是文章的全部内容请认真阅读。

全文检索系统技术方案

北京中威佰特科技有限公司

2009-7

文检索系统技术方案

目 录

第1章 背景 .............................................................................................................................................. 1 第2章 系统设计 ...................................................................................................................................... 2 2.1 技术架构图 ................................................................................................................................... 2 2.2 系统架构图 ................................................................................................................................... 3 第3章 系统功能 ...................................................................................................................................... 4 3.1 信息采集 ....................................................................................................................................... 4 3.2 中文自然语言处理 ....................................................................................................................... 4 3.3 全文检索功能 ............................................................................................................................... 4 3.4 格式文件检索 ............................................................................................................................... 5 3.5 性能指标 ....................................................................................................................................... 5 第4章 搭建全文检索平台 ...................................................................................................................... 7 4.1 信息查询 ....................................................................................................................................... 7 4.1.1 查询方式 ............................................................................................................................... 7 4.1.2查询结果 ................................................................................................................................. 9 4.1.3简单查询 ................................................................................................................................. 9 4.1.4业务查询 ............................................................................................................................... 10 4.1.5组合查询 ............................................................................................................................... 10 4.1.6 批量查询 ............................................................................................................................. 12 4.2 信息检索 ..................................................................................................................................... 13 4.2.1 关键词检索 ......................................................................................................................... 13 4.2.2递进检索 ............................................................................................................................... 13 4.2.3网文检索 ............................................................................................................................... 14 4.2.4检索技术 ............................................................................................................................... 15

第1页

文检索系统技术方案

第1章 背景

据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。

搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。

搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:

(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中文自动分词。 (2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。

(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术,将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。

第1页