Nutch 151入门指南.doc
上传人:sy****28 上传时间:2024-09-10 格式:DOC 页数:3 大小:60KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

Nutch 151入门指南.doc

Nutch151入门指南.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

韩祥斌-Nutch1.5.1入门指南PAGE\*MERGEFORMAT3Nutch1.5.1入门指南简介Nutch是一个Java实现的web爬虫,爬取的结果存储到database(指定文件路径下的一系列文件及目录)供Solr或Lucene索引和检索。2012年7月发布的最新版本有两个:主流的v1.5.1和支持大范围爬取、大数据存储的v2.0。常见搜索相关的框架的基本功能列表:爬取索引检索Nutch√Solr√√Lucene√√Grub√Larbin√Grub(searchengine)是开源的分布式搜索爬虫平台(distributedsearchcrawlerplatform)。创建于2000年,2003年被LookSmart收购,后来被中止,2007年再次启动。官网grub.org。注意与GNUGRUB的不同,GNUGRUB是计算机启动的引导加载程序(bootloader)。Larbin是法国人用C++实现的web爬虫,最近已经不更新了。使用Nutch解压缩Nutch二进制分发包,目录如下:bin目录,只包含一个可执行文件nutchconf目录,nutch命令执行的配置参数docs目录,JavaDoc帮助lib目录,相关Jar类库plugins目录,相关插件库记{Nutch解压缩目录}/nutch为NUTCH_HOME设置环境变量JAVA_HOME略修改配置文件conf/nutch-site.xml<property><name>http.agent.name</name><value>MySpider</value></property>修改属性http.agent.name为任何其他值设置要爬取的网址URL创建myURLs目录(为了执行方便,最好为$NUTCH_HOME/myURLs)在myURLs目录创建文件seed.txt,编辑该文件,一行一个要爬取的网址url。执行命令nutch命令bin/nutchcrawlmyURLs-dircrawlDir-depth3-topN5说明:crawl是nutch命令的参数,表示进行爬取操作;myURLs指定要爬取的URLs;crawlDir指定爬取结果的存放目录;depth指定爬取的网址的深度,即从指定URL逐层进入的链接的深度;topN指定在每个深度爬取的页面数量上限爬取结果分析经过若干时间,nutch命令执行完毕,crawlDir目录下将出现如下3个子目录:crawldb,其中是Nutch已知的全部URL(包括已经爬取的和未爬取的,爬取的时间)。linkdb,其中是到每个URL的已知链接列表,包括源URL和链接的锚名字。segments,其中是segment的集合。一个segment是URLs的集合,这些URLs作为一个单位(unit)被爬取。crawl_generate,命名爬取的URLs集合crawl_fetch,包含每个URL的爬取状态content,包含从每个URL爬取的原始内容parse_text,包含每个URL的解析之后的文本parse_data,包含从每个URL解析出来的外部链接(outlinks)和元数据(metadata)crawl_parse,包含外部链接URLs,用以更新crawldb过滤要爬取的URLs打开文件conf/regex-urlfilter.txt,该文件末尾如下:#acceptanythingelse+.说明:每行的第一个字符:+表示包含后续的URL,-表示忽略后续的URL。所以原始文件中的“+.”表示包含任何URL。内容替换如下:#acceptanythingelse+^http://([a-z0-9]*\.)*nutch.apache.org/Nutch与Solr结合使用安装设置Solr下载Solr并解压缩(记{Solr解压缩目录}为SOLR_HOME)进入$SOLR_HOME/example执行java–jarstart.jar打开浏览器,访问http://localhost:8983/solr/admin/,如果正常即表示启动成功集成Nutch与SolrNutch擅长网页抓取,Solr擅长索引和搜索。通过如下命令可以在Nutch爬取的同时进行Solr索引:bin/nutchcrawlmyURLs-solrhttp://localhost:8983/solr/-depth3-topN5Nutch完成爬取之后,使用Solr索引:复制$NUTCH_HOME/conf/schema.xml到$SOLR_HOME/example/solr/conf进入$SOLR_HOME