信息检索导论课后答案 下载本文

内容发布更新时间 : 2024/5/19 1:36:38星期一 下面是文章的全部内容请认真阅读。

信息检索导论课后答案

【篇一:信息检索导论王斌译第一章课后习题答案】

casts 1 1

home 4 1 2 3 4 in2 2 3

increase 1 3 july3 2 3 4 new2 1 4 rise2 2 4

sales4 1 2 3 4 top1 1

把所有文档中的词抽取,按顺序排序。倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写 习题1-2 a题

1 2 3 4

approach 0 0 1 0

breakthrough1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hope 0 0 0 1 new 0 1 1 1 of0 0 1 0

patient 0 0 0 1

schizophrenia1 1 1 1 treatment0 0 1 0

矩阵行是词,按顺序排列;列方向是文档编号。某文档出现某词,相应位置填1,否则填0 b题 approach 1 3

breakthrough 1 1 drug 2 1 2 for3 1 3 4 hope 1 4 new3 2 3 4 of1 3

patient 1 4

schizophrenia 4 1 2 3 4

treatment 1 3 习题1-7

1. kaleidoscope or eyes87009+213312 2. marmalade or skies 107913+271658 3. tangerine or trees46653+316812 按估计的记录个数,从小到大的顺序 1 2 4 11 31 45 173 174 p

2 31 54 101 q 1

1 2 4 11 31 45 54 101 173 174

相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移

习题1-10 answer -

while p1!=nil or p2!=nil do if docid(p1)=docid(p2) then add(answer,docid(p1)) p1-next(p1) p2-next(p2)

else if docid(p1)docid(p2) add(answer,docid(p1)) p1-next(p1) else

add(answer,docid(p2))

p2-next(p2) return answer

【篇二:信息检索导论-王斌 第三次课后作业(13-21)】

xt>1、习题13-2

答:(i)贝努利模型:三个文档具有相同的模型表示

(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5 3

、习题14-6

在图14-14 中,3 个向量 a、b及c中哪一个满足:(i) 采用内积计算的情况下与x 最近?(ii) 采用余弦相似度计算的情况下与x最近?(iii) 采用欧氏距离计算的情况下与x最近? ? ? ? ? ? ? 4

、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?

答:一个数据集里支持向量的最小数目是2个。因为svm分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。 5、习题16-5k-均值算法的两个停止条件为:(i) 文档的分配不再改变; (ii) 簇质心不再改变。请问这两个条件是否等价?

答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则k-均值算法计算出的文档的分配也就不再改变。 6、习题17-7a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?

b. 当使用hac 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。

b.预期的结果不一样。hac是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。

答:(1)词项-文档矩阵: hello