如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
搜索引擎初探--以Google为例王鹏伟电信学院网格中心提纲一、搜索引擎基础知识介绍二、搜索引擎构成及工作流程三、Google概述四、PageRank原理及其求解五、相关性:文本匹配六、Google内部工作流程扩展…一、搜索引擎基础知识介绍前言?我国的网页规模?网页的规模反映了互联网内容的丰富程度。自2003年开始,中国的网页规模基本保持翻番增长,截至2011年12月网页数量达到866亿个。前言?各类网络应用使用率前言?2011年底搜索引擎用户规模达到4.07亿,在网民中的渗透率为79.4%,使用比例基本保持稳定,是2011年仅次于即时通信的第二大网络应用。前言?通常通过什么方式获得、查找新网站?数据都来源于CNNIC发布的《中国互联网络发展状况统计报告》发展史??1990年以前,没有人能够搜索万维网;现代意义上的搜索引擎的祖先:Archie,由蒙特利尔大学学生AlanEmtage于1990年发明(FTP自动文件搜索索引);?1994年4月,斯坦福大学的两名博士生DavidFilo和美籍华人杨致远共同创办了超级目录索引Yahoo;????最早现代意义上的搜索引擎Lycos出现于1994年7月;从此搜索引擎进入了高速发展时期;1998年9月,著名搜索引擎Google诞生。2000年1月,超链专利发明人、前Infoseek资深工程师李彦宏与好友徐勇在北京中关村创建了Baidu公司。分类?搜索引擎一般分类:?全文搜索引擎(FullTextSearchEngine)??关键词型搜索引擎,网页搜索引擎;由蜘蛛程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务;??该类搜索引擎的优点是信息量大、更新及时、无需人工干预;缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。分类?搜索引擎一般分类:?目录型搜索引擎(Searchindex/Directory)??目录索引;以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息臵于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。???该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高;缺点是需要人工介入、维护量大、信息量少、信息更新不及时;实际上,从现代意义的搜索引擎角度来看,这种目录索引算不上是真正的搜索引擎。分类?搜索引擎一般分类:?元搜索引擎(METASearchEngine)??集成搜索引擎,基于搜索引擎的搜索引擎;这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户;服务方式为面向网页的全文检索;??这类搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分使用所调用搜索引擎的功能,用户需要做更多的筛选。分类?全文搜索引擎?Google—以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物;??Fast/AllTheWeb—总部位于挪威的搜索引擎后起之秀,风头直逼Google;AltaVista—曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一;?Overture—最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎;???Lycos—发源于西班牙的搜索引擎,网络遍布世界各地;Bing—微软作品,近期市场份额在快速上升;国内:百度,网易有道,搜狗,腾讯soso,及最新的人民搜索(人民日报社和人民网)、盘古搜索(新华网和中国移动)等等。分类?目录型搜索引擎(Searchindex/Directory)???Yahoo—最负盛名的目录索引,搜索引擎开山鼻祖之一;Dmoz.com/ODP—由义务编辑维护的目录索引;AskJeeves—著名的自然语言搜索引擎,于2002年初收购Teoma全文搜索引擎;???LookSmart—点击付费索引目录,2002年收购WiseNut全文搜索引擎;About.com—有其自身特色的目录索引;国内:搜狐分类目录、新浪搜索分类目录等等。二、搜索引擎构成及工作流程主要组成?一般来讲,搜索引擎主要由四个部分构成:????搜索器索引器检索器用户接口主要组成?搜索器??网络蜘蛛、爬虫程序;搜索器的功能是在互联网中漫游,发现和搜集信