内容发布更新时间 : 2024/11/7 16:37:08星期一 下面是文章的全部内容请认真阅读。
网络搜索引的比较研究课题 论文(报告、案例分析)
院系信息学院 专业电子商务 班级电子商务1班 学生姓名王烁晨薛越洋 学号20102110132010211190 任课教师师鸣若
2013年1月19日
网络搜索引擎的比较研究
学生姓名:王烁晨2010211013薛越洋2010211190
摘要:搜索引擎已成为中国互联网用户获取网络信息的主要工具,利用搜索引擎查询网上信息资源已成为解决网络资源利用的有效方式,信息界亦掀起了搜索引擎研究的热潮.文中简单介绍了搜索引擎及其在全球与中国的现状,并以目前国内外排名靠前的搜索引擎Google、百度和雅虎为研究对象,从界面、内容、问答、用户结构、经营等多个角度进行比较,旨在挖掘3者各自的特殊,为搜索引擎的个性化比较研究提供依据.最后作出总结并提出了搜索引擎的未来发展趋势及本文不足之处. 关键词:搜索引擎;Google;百度;雅虎;比较研究 引言
Internet与全球电信的迅猛发展使信息资源的“生产”、“传播”与“消费”出现了新的格局.信息资源如雨后春笋,信息在网络上的传播速度跨数量级的提升,使得上网用户获取真正有用的信息越来越难.如何在网上快速、有效地获取信息资源,已经成为信息查询者的一大难题,因此网络搜索引擎应运而生.
搜索引擎已成为中国互联网用户获取网络信息的主要工具,它对迅速筛选所需信息起到很重要的作用.如今世界上的搜索引擎数以万计,因此,选择合适的搜索引擎就成为重中之重.Google、百度和雅虎中国是目前比较有影响力的三种著名的搜索引擎,本文将对其主要的性能指标进行分析比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好.
1网络搜索引擎的含义及分类
网络搜索引擎又称为网络检索引擎,其英文译名为SearchEngine.广义上是指一种基于Internet的信息查询系统,包括信息抓取、信息管理和信息检索;狭义上是指一种为搜集Internet上的网页而设计的检索软件.现有的网络搜索引擎基本上分为3类:
(1)独立搜索引擎(Singlesearchengine).其特点是仅在搜索引擎的本身数据库中查询,如我们经常使用的Google、百度、雅虎等.
(2)元搜索引擎(Metasearchengine).所谓元搜索引擎是对分布于网络的各种检索工具的全局控制机制,它通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作.其特点是对查询得到的结果进行不同程度的处理,如:删除重复结果、检验连接、结果按相关度排序等.元搜索引擎本身按照其工作方式的不同又分为并行处理引擎和串行处理引擎.
(3)网络搜索软件(Netsearchsoftware).其特点是网络用户可将相应的搜索软件下载至本地计算机
上安装查询,是一种具有网络查询功能的离线浏览器.
2网络搜索引擎的搜索原理
网络搜索引擎实际上是个专用的WWW服务器,它存有庞大的索引数据库,收集了全世界上百万甚至上千万个WWW主页的文字信息.为了收集这些信息,有个自动检索程序(Robots)沿着WWW的超文本链经常搜索整个WWW上的主页,然后为这些主页上的每个文字建立索引并送加集中管理的索引数据库.索引信息包括文档的WWW地址、每个文档中单词出现的频率和位置等.使用WWW搜索引擎时,可以根据用户输入的关键词,在自己的数据库中查询相关信息,然后将结果(网址)提供给用户.
3三大搜索引擎简介
3.1Google(http://www.google.com)简介
Google是由斯坦福大学计算机科学系LarryPage和SergeyBrine博士于1998年创建.支持30多种语言检索,包括中文简体和繁体,并有中文Google网页.当输入检索词后,Google每次可以检索30多亿个网页,从众多的网页中选取与检索式匹配的链接,检索效率极高.Google富于创新的搜索技术和典雅的用户截面设计,使Google从当今的第一代搜索引擎中脱颖而出.2000年9月,Google开启中文搜索服务,2004年8月在纳斯达克上市,开创了第二代搜索引擎技术.许多权威机构都将其评为最佳搜索引擎.Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理,并对抓取到的网络进行超链接分析.
Google是一个功能强大、网络信息资源非常丰富的搜索引擎,包括35个国家和地区的语言资源,占有全球搜索市场的80%.Google原意是表示1后面带有100个零的数字,使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望,许多权威机构都将其评为最佳搜索引擎,全世界平均每天上网人次高达1.5亿.Google在中国搜索市场的市场份额突破30%,并且增长速度迅猛,在中文搜索市场有举足轻重的作用.公司产品Google是全世界最受欢迎的搜索引擎,使用一种自创的称为PageRankTM(网页级别)技术来索引网页,索引是由程序“Googlebot”执行的,它会定期地请求访问已知的网页新拷贝.页面更新愈快,Googlebot访问得也愈多,再通过在这些已知网页上的链接来发现新页面,并加入到数据库.索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的. 3.2百度(http://www.http://www.35331.cn/)简介
百度是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎,它拥有目前世界上最大的中文信息库,总量达到1亿2千万页以上,并且还在以每天几十万页的速度快速增长.2000年1月,百度公司在中国成立了他的全资子公司百度网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又在上海成立了上海办事处.2005年百度在美国纳斯达克上市,成为当年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段.
百度搜索引擎(www.http://www.35331.cn/)的起名源于“众里寻她千百度”和突破“事儿做到九十九度就是做到头”的西方说法,百度就是想要力争做到一百度,做到顶上开花的境界.
百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱.
百度是目前全球最优秀的中文信息检索与传递技术供应商.它在中文互联网拥有天然优势,目前收录中文网页已超过12亿个,这些网页的数量每天正以千万级的速度在增长;同时,百度在中国各地分布的服务器,能直接从最近的服务器上把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度.目