搜索引擎技术、现状、以及未来发展趋势的文献综述(常用版).doc
上传人:天马****23 上传时间:2024-09-10 格式:DOC 页数:34 大小:2MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

搜索引擎技术、现状、以及未来发展趋势的文献综述(常用版).doc

搜索引擎技术、现状、以及未来发展趋势的文献综述(常用版).doc

预览

免费试读已结束,剩余 24 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

搜索引擎技术、现状、以及未来发展趋势的文献综述(常用版)(可以直接使用,可编辑完整版资料,欢迎下载)搜索引擎技术、现状、以及未来发展趋势的文献综述[摘要]随着最近10年中国互联网的快速发展,互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中,搜索引擎发挥了巨大的推动作用。本文对搜索引擎的发展历史,采用的技术,发展现状,出现的问题以及未来发展方向进行了综述,让读者对搜索引擎有个宏观的了解。[关键词]搜索引擎,汉语分词,调查报告[正文]搜索引擎概述搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。二、搜索引擎的重要发展历程1.1990年,Montreal的McGillUniversity三名学生(AlanEmtage、PeterDeutsch、BillWheelan)发明Archie(ArchieFAQ),成为所有搜索引擎的祖先。2.1993年,MITMatthewGray的WorldwideWebWanderer,是世界上第一个Spider程序。3.1994年4月,杨致远和DavidFilo共同创办了Yahoo!。4.1995年,一种新的搜索引擎形式出现了——元搜索引擎(MetaSearchEngine),即Washington大学硕士生EricSelberg和OrenEtzioni发明的Metacrawler。5.1996年8月,sohu公司成立。6.1998年,Google成立。7.2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。搜索引擎的技术层面(1)搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。1.全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。全文搜索引擎:2.目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。目录索引:3.元搜索引擎(METASearchEngine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。除上述三大类引擎外,还有以下几种形式:1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。2、门户搜索引擎:如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。3、免费链接列表(FreeForAllLinks,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录