如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
万维网Web自动搜索引擎(技术报告)邓雄(JohnnyDeng)2006.12网络时代的信息量每8个月翻一番,如今的网页以100亿来计算;网络搜索已成为仅次于电子邮件的第二大网络应用。2005年中国互联网发展状况统计报告中也指出,用户在互联网上获取信息最常用的方法中,通过搜索引擎查找相关的网站占58.2%。对于有效的搜索引擎技术的研究将具有巨大的学术及商业价值。搜索引擎技术源自于信息获取(InformationRetrieval)这个学科。信息获取技术包含了信息的表述、存储、组织和对信息的访问方法。一般的信息获取系统(基于文本的)通常只提供信息的获取,而对于基于超文本的系统来说,它可以方便将信息获取与浏览结合起来,同时由于万维网信息的规模大、内容不稳定、高度的数字化和网络化,这给万维网的信息获取带来了巨大困难。目前的万维网Web搜索引擎可以分为三大类:全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google(HYPERLINK"http://www.google.com/"http://www.google.com)、yahoo(HYPERLINK"http://search.yahoo.com/"http://search.yahoo.com)、AllTheWeb(HYPERLINK"http://www.alltheweb.com/"http://www.alltheweb.com)等,国内著名的有百度(HYPERLINK"http://www.baidu.com/"http://www.Baidu.com)、中搜(HYPERLINK"http://www.zhongsou.com/"http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(HYPERLINK"http://www.yahoo.com/"http://www.yahoo.com)OpenDirectoryProject(DMOZ)(HYPERLINK"http://www.dmoz.com/"http://www.dmoz.com/)、LookSmart(HYPERLINK"http://www.looksmart.com/"http://www.looksmart.com)等。国内的搜狐(HYPERLINK"http://www.sohu.com/"http://www.sohu.com)、新浪(HYPERLINK"http://www.sina.com/"http://www.sina.com)、网易(HYPERLINK"http://www.163.com/"http://www.163.com)搜索也都具有这一类功能。元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile(HYPERLINK"http://www.dogpile.com/"http://www.dogpile.com)、Vivisimo(HYPERLINK"http://www.vivisimo.com/"http://www.vivisimo.com)等,国内元搜索引擎中具代表性的有搜星搜索引擎(HYPERLINK"http://www.soseen.com/"http://www.soseen.com/),优客搜索(HYPERLINK"http://www.yok.com/"http://www.yok.com)。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。其他的像新浪(HYPERLINK"http://search.sina.com.cn/"http://search.sina.com.cn)、网易(HYPERLINK"http://search.163.com/"http://search.163.com)、A9(HYPERLINK"http://www.a9.com/"http://www.A9.com)等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。Web搜索