信息检索方法与技术(06)_2010-第一文库 | 海量文档资源下载与分享平台

免费试读已结束，剩余 24 页请下载文档后查看

16 金币

下载此文档

/ 34

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

信息检索方法与技术信息检索方法与技术吴江宁大连理工大学管理科学与工程学院系统工程研究所2010年11月22内容提要第六讲Web检索技术Web检索的系统结构Web数据采集系统的分类网页去重方法相关性排序算法―PageRank算法―HITS算法查询构造方法原理篇33内容提要第六讲Web检索技术Web检索的系统结构Web数据采集系统的分类网页去重方法相关性排序算法―PageRank算法―HITS算法查询构造方法原理篇4Web检索的工作流程当用户使用搜索引擎进行检索时，通过Web浏览器打开这个网页，在窗口中输入一个短语或者一个有空格分隔的词串，点击“搜索”按钮，网页就会将用户的请求通过网络传递给搜索引擎的服务器，服务器接到检索请求后首先分析检索词串，进行分词，根据事先对词的统计，然后为不同的查询词赋予不同的权值，使搜索引擎系统能更好地理解用户的查询请求，这个过程称为查询词序列构造。利用构造好的查询词序列就可以在建立好的索引中查找出现了查询词的Web文本。当得到一个满足查询要求的列表后，应用超链接分析技术和文本中出现的词汇特征，以及通过用户对检索结果的反馈等特征，计算出满足查询条件的网页集合与用户查询词序列的相关度。最后按照相关度递减的顺序将网页信息列表返回给用户。5Web检索的系统结构根据搜索引擎的工作原理与流程，Web检索系统可以被分成主要的四个部分：Web数据采集系统网页预处理系统索引检索系统检索结果排序系统6Web数据采集系统原始网页数据库Web用户网页预处理系统网页正文数据库索引检索系统相关性排序系统用户查询用户行为数据库用户行为分析器用户用户??77内容提要第六讲Web检索技术Web检索的系统结构Web数据采集系统的分类网页去重方法相关性排序算法―PageRank算法―HITS算法查询构造方法原理篇8Web数据采集系统的结构（1/4）系统工作原理Web数据采集一般会选择一些比较重要的、出度（网页中含有的链接数）较大的网站的网址作为种子URL集合。数据采集系统将这些种子集合作为初始的URL，开始数据的爬取。由于网页中含有链接信息，通过已有网页的网址会得到一些新的网址，可以把网页之间的指向关系视为一个森林，每个种子站点对应的网页是森林中一棵树的根节点。这样，Web数据采集系统就可以根据广度优先或深度优先搜索算法遍历所有的网页。由于应用深度优先搜索算法可能会使采集系统陷入一个网站内部，不利于搜索比较靠近网站首页的网页信息，因此一般采用广度优先搜索算法采集网页。9Web数据采集系统的结构（2/4）具体地，Web数据采集系统首先将种子站点放入下载队列，然后简单地从队首取出一个网站或者根据一定的采集优先级选择一个站点下载其对应的网页。得到网页内容后，再经过解析网页中的链接信息可以得到一些新的网站，将这些新网址加入到下载队列。然后再取出一个站点，对其网页进行下载、解析，如此反复进行，直到遍历了整个网络或者满足某种条件才会停止下来。基本结构集中式Web数据采集系统分布式Web数据采集系统―由于网络上的网页数量越来越大，仅仅依靠升级集中式采集系统的硬件已经无法满足需要。大规模的Web数据采集采用分布式结构，用网络连接过个采集器，它们之间用分布式算法进行控制。10Web数据采集系统的结构（3/4）Web采集器采集器采集器采集器??主控服务器主控式Web数据采集系统的结构11Web数据采集系统的结构（4/4）采集器对等式Web数据采集系统的结构采集器采集器采集器采集器12Web数据采集系统的分类（1/3）基于整个网络的数据采集（ScalableWebCrawling）这是一种传统的信息采集系统。它主要用于大型搜索引擎系统的数据采集系统。此类数据采集系统，采集的范围和数量非常大，所以对采集速度和存储空间要求非常高。这类系统的特点是采集量大，采集的信息很全，包含的主题也是各种各样的，如Google。增量式数据采集（IncrementalWebCrawling）基于整个网络的数据采集系统采集数据的周期长达一个月，也就是说每