档案文献检索系统的评价标准与检索效率 下载本文

内容发布更新时间 : 2024/5/10 2:03:38星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

档案文献检索系统的评价标准与检索效率

作者:王泳霁

来源:《知识文库》2015年第20期

档案文献检索系统,确切地说是档案文献的存贮和检索系统。如果从信息交流这个大的范畴来看,是档案用户与档案文献集合之间相互交流的一部分,是档案用户与档案信息资源的接口。

一、档案文献检索系统的评价标准

档案文献的存贮和检出系统,包括六个子系统,即:档案文献选择子系统、词 表子系统、标引子系统、查寻子系统、档案用户与系统之间交互子系统和匹配子系统。其中,存贮是检出的基础,检出是存贮的目的;档案文献的存贮过程。就是要把有关档案文献的特征著录下来,成为一条条的档案文献线索,并将它们系统排列。因此,档案文献检索系统应该具有存贮和检出两方面的职能,评价某—档案文献检索系统的标准也具有两方面的含义。 (一)存贮的广泛与全面

档案信息的存贮过程,是搜集有关档案文献,著录档案的特征,并将档案线索存贮起来的过程。档案检索系统只有对档案信息搜集得较为广泛全面,才能围绕有关问题从各个角度提供较为丰富的档案文献信息,而不至于遗漏那些对研究有关问题比较间接,然而有一定意义的档案,从而为档案用户开拓更广泛的查询领域,使他们有充分的选择余地。影响这一标准的因素有以下几点:

1.档案信息的覆盖面

所谓覆盖面,是指档案检索工具对其所应有的著录范围的涉及面;这是衡量某一检索工具的一个重要的质量指标,同时也反映了检索工具作为—种信息资源的丰富性和完备性。档案检索工具对有关档案信息的覆盖面,实质上也是对档案文献检索系统广度方面的要求。档案检索工具的覆盖面一般可以用百分比来表示。 2.档案信息的摘贮率

所谓摘贮率,是指档案检索工具中有关专题的条目数气该专即实有文件数的比率。与档案信息的覆盖面相比,档案信息的摘贮率则更具有其深度方面的特点。摘贮率是就某—专题而设定的指标,它是衡量档案检索工具对著录范围内的某一个专题的档案的涉及程度。摘贮率同样可以用百分比来表示。 3.档案信息的标引深度

龙源期刊网 http://www.qikan.com.cn

所谓标引深度,是指对档案的内容特征和形式特征描述时所达的深度、这也是决定档案检索工具质量的一个重要因素。标引深度也可以理解为分派给某一份文件的标引词的数量,或者说每份文件的“标目”的数目,即每份文件能够被查寻到的次数。如果某一份文件在检索工具中只有一个标目,那么它在检索工具中就只有一个位置,其被查到的可能性也只有一个。为提高检索效率,现代的一些检索工具都致力于标引深度的加深。往往将一份文件分析成几个乃至十几个主题;这样,就可以降低由于查票者检索档案时角度的不同,造成的埋没档案的可能性。 (二)检出的迅速与准确

检出的迅速与准确,是对档案文献检索系统的又一评价标准 档案的数量浩如烟海,档案检索工具亦是种类繁多,如果检索工具不能保证检索过程的迅速,那就会延误各项工作的进展,或者使检索工具本身失去现实意义;因此,检索速度的提高,是一个迫切的要求。正是由于这个要求,推动了各种机械检索工具的出现以及各种计算机辅助编制的检索工具的发展、其目的都在于尽可能地提高档案检索匹配的效率,提供更多的检索入口和文件的存取点。 总之,在存贮档案文献方面的广泛与全面和在检出档案文献方面的迅速与准确,是衡量和评价档案文献检索系统的标准。 二、档案文献检索效率

(一)衡量档案文献检索效率的基本概念

档案文献检索系统的任务是:为满足档案用户的要求,从某一部分档案中找出与用户需求相一致的档案文件。因此,任何一种档案文献检索系统都要进行一下两种判断处理: (1)从检索系统的角度看,参加检索的所有档案文件可以划分为两部分:凡是与检索提问相一致的档案,就被检出,称为检出档案;凡与检索提问不相一致的档案就不会检出,称为未检出档案。这种检索系统对档案是否与检索提问一致的预测,可以称为系统相关性预测。 (2)从档案用户的角度看,参加检索的所有档案文件,也可以划分为两部分:满足用户需要的相关档案和不满足用户需要的非相关档案。用户按照自己的需要对档案文件的判断,可以称为用户相关性判断。

(二)影响查全率和查准率的因素

查全率、查准率和档案检索系统的收录范围、档案检索语言、标引工作和查寻工作等都有非常密切的关系。

影响查全率的主要因素有:检索工具收录档案不全面,漏报现象比较严重;检索词表结构不完善;词间关系含糊或不正确;标引缺乏网罗度(详尽比),即标引深度不够;标引前后不

龙源期刊网 http://www.qikan.com.cn

一致;标引人员遗漏了重要的概念或用词不当;查询时不能全面地描述检索要求;检索策略过于简单;检索工具使用不当;检索途径与检索方法过少;查寻人员缺乏灵活性与坚韧性等等。 (三)查全率与查准率的关系

由于影响查全率的主要因素是标引的网罗度,而影响查准率的主要因素是检索词的专指度。因此,查全率和查准率彼此具有反变的关系。

所谓标引的网罗度是指标识档案文件主题的广度而言,也就是标引深度。如果对档案主题的分析越透彻,抽取的标引词越多,那么在检索时相关主题的档案文件都可能被检索出来,因而查全率就较高。另一方面,检索出来的档案文件并非全部适用,因而查准率就会相应降低。反之,如果标引时只标中心主题,检出的档案文件必然比较适用,即查难率较高,但漏检则会增多,从而降低了查全率。检索词的专指度是指检索词典的适用性及其揭示档案主题的深度,如果把检索词选得更狭窄、更具体、更专深的话,那么检索出来的档案就会更对口,因而查准率就显得越高。但命中的档案就会减少,即查全率降低了。相反,如果把检索词定得笼统宽泛一些,检出的档案就会增多(查全率提高),然而真正对口的档案占的比例会减少。 (作者单位:青冈县档案局)