信息检索导论-王斌-第三次课后作业(13-21)-南京廖华答案网

信息检索导论-王斌-第三次课后作业(13-21) 下载本文

内容发布更新时间 : 2026/4/19 4:52:29星期一下面是文章的全部内容请认真阅读。

。

信息检索导论第三次课后作业

1、习题13-2

答：(i)贝努利模型：三个文档具有相同的模型表示

(ii)多项式模型：文档1和文档2相同，文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次，文档3中只出现了一次。 2、习题13-5

-可编辑修改-

。

3、习题14-6

在图14-14 中，3 个向量 a、b及c中哪一个满足：(i) 采用内积计算的情况下与x 最近？(ii) 采用余弦相似度计算的情况下与x最近？(iii) 采用欧氏距离计算的情况下与x最近？

??????

-可编辑修改-

。

4、习题15-1一个数据集里支持向量的最小数目是多少（此时的数据集每个类别中都包含实例）？

答：一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器，即对于距离超平面最近的实例点，也希望能有足够的确信度将其分开，确定这样的超平面需要的支持向量最小数目是2个。 5、习题16-5 K-均值算法的两个停止条件为：(i) 文档的分配不再改变； (ii) 簇质心不再改变。请问这两个条件是否等价？

答：这两个停止条件是等价的。当连续两次迭代之后，若文档的分配不再改变，则据此计算出的簇质心也不会再改变；当簇质心不再改变的时候，则K-均值算法计算出的文档的分配也就不再改变。

-可编辑修改-

。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类，你预期的结果是什么？

b. 当使用HAC 算法时，预期的结果是否仍然一样？答：a.预期的结果：文档根据语言的大致分成两类。

b.预期的结果不一样。HAC是自底向上的聚类方法，最开始的时候每一篇文档都是一个簇，然后不断对簇进行两两合并，直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据，如果要按照不同的语言将文档进行分类，则需要在层次结构中某处进行截断，在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合，其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然，该术语表只用于帮助理解，对检索系统来说是不可见的。

答：（1）词项-文档矩阵：

hello d1 1

d2 0

d3 0

d4 0

d5 0

d6 1

-可编辑修改-

。

open house professand 0 0 0 0

1 1 0 0 0 0 0 0 0 0

0 0 0 0 0 1 1 0 0 0

0 0 1 0 0 0 0 1 0 0

0 0 0 0 0 0 0 1 1 1

0 0 0 1 1 0 0 0 0 0

welcom0 mi case hola y 0 0 0 0

bienven0

（2）经过SVD分解，得到： U2 = 0.00000 0.70711

-可编辑修改-

0.00000 0.00000 0.00000 0.00000 -0.27639 0.00000 0.00000 0.50000 0.00000 0.50000 0.00000 0.00000 0.00000 0.00000 -0.72361 0.00000 -0.44721 0.00000 -0.44721 0.00000

Word文档下载：信息检索导论-王斌-第三次课后作业(13-21).doc

搜索更多:信息检索导论-王斌-第三次课后作业(13-21)