Nutch配置.docx
上传人:sy****28 上传时间:2024-09-14 格式:DOCX 页数:12 大小:1.4MB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

Nutch配置.docx

Nutch配置.docx

预览

免费试读已结束,剩余 2 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第一部分网页下载1、下载nutch1.2(其实是apache-nutch-1.2-bin)解压开到有nutch-1.2.war,这个用来在tomcat部署运行。2、安装cygwin。一个在windows平台模拟linux环境的工具,因为nutch用到了shell脚本,安装cygwin保证了可以在windows下操作,并且不用担心联网问题。我安装在D:\cygwin3、把nutch-1.2文件夹重命名为nutch。我存放在D:\cygwin\usr\local其中crawled文件夹和cral.log文件是后来生成的,后面提及。4、修改crawl-urlfilter.txt。找到:#accepthostsinMY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/改为:#accepthostsinMY.DOMAIN.NAME+^http://([a-z0-9]*\.)*qq.com/网址随便你设定,这就是抓取的网址。如下图:5、修改nutch-default.xml。找到如下图,在<value></value>之间添加nutch。6、配置NUTCH_JAVA_HOME。因为nutch要关联jdk。新建一个环境变量:变量名:NUTCH_JAVA_HOME变量值:E:\ruanjian\jdk(注意:这是我安装jdk的目录,而不是配置jdk的环境变量:E:\ruanjian\jdk\bin)建立如下图:至此,配置完毕!7、建立要抓取的url文件。我是在D:\cygwin\usr\local\nutch(即在nutch目录下建立url.txt)。里面写要抓取的url的名称,每个url必定要在末尾加上“/”。例如:http://www.qq.com/8、抓取网页。进入nutch目录。输入如下命令:bin/nutchcrawlurl.txt-dircrawled-depth3-threads10-topN50>&crawl.logurl.txt指url文件-dircrawled抓取网页存储的文件夹。crawled文件夹可以不用自己建,没有的话自动生成的。crawldb和segments文件夹也是抓取网页过程中生成的。-depth3抓取深度为3-threads10线程总数为10crawl.log文件也是在抓取过程当中生成的。如下截图命令。敲完要等待抓取……第一部分结束。第二部分网页内容搜索在开始这部分内容之前,首先确认D:\cygwin\usr\local\nutch\crawled路径下,即存放下载网页文件夹crawled里面的index,indexes,linkdb,文件夹在下载网页过程当中自动被创建,并且下载有内容。因为这些内容在网页搜索过程当中作为索引。例如:我的index文件夹有这些内容。其他indexes,linkdb文件夹也有内容。如果这些都完美解决,那就开始第二部分。1、安装tomcat。因为这个是javaweb的搜索引擎。网上大把教程。我把tomcat安装在E盘,结果如下图:2、把nutch目录下的nutch-1.2.war文件复制到E:\Tomcat\webapps下,就是webapps文件夹里面。这是web的运行目录。Tomcat运行后自动解压nutch-1.2.war,生成nutch-1.2文件夹。里面就是nutch的运行文件。为了省事我特意把nutch-1.2重命名为nutch打开nutch文件夹,看到如下文件。再进入E:\Tomcat\webapps\nutch\WEB-INF\classes,即classes文件夹。打开nutch-site.xml,在<configuration></configuration>之间添加<property><name>searcher.dir</name><value>D:\\cygwin\\usr\\local\\nutch\\crawled</value><description>Pathtorootofcrawl.Thisdirectoryissearched(inorder)foreitherthefilesearch-servers.txt,containingalistofdistributedsearchservers,orthedirectory"index"containingmergedindexes,orthedirector