如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:HYPERLINK"http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx"http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2eclipsetomcat6.0配置:HYPERLINK"http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.html"http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.htmlHYPERLINK"http://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro"Nutch实战:介绍了开源搜索引擎Nutch的基本信息,详细说明了在Eclispe下运行Nutch的步骤和需要注意的问题,还分析了部分源代码。很好的文章Nutch目录结构bin:用于命令行运行的文件;conf:Nutch的配置文件lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:Nutch的所有源文件;webapps:web运行相关文件;nutch-0.9.war是Nutch所提供的基于Tomcat的应用程序包。Nutch工作流程1.将起始URL集合注入到Nutch系统之中。2.生成片段文件,其中包含了将要抓取的URL地址。3.根据URL地址在互联网上抓取相应的内容。4.解析所抓取到的网页,并分析其中的文本和数据。5.根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。6.同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。(1)准备需要的软件列表Cygwin(HYPERLINK"http://www.cygwin.com/setup.exe"下载地址:http://www.cygwin.com/setup.exe)Jdk(1.4.2以上版本,HYPERLINK"http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html"下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html)Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)Tomcat(下载地址http://tomcat.apache.org/)(2)安装软件1)Cygwin打开安装程序Cygwin.exe后,在"ChooseInstallationType"页选择"InstallfromInternet"(如果你已经把全部安装包下载到本地,就可以选择"Installfromlocaldirectory"选项)。然后点击"Next".然后选择安装目录,其他可保持默认选项,点击"Next".选择保存安装包的本地目录,点击"Next".选择下载连接的类型,点击Next。然后通过服务器先下在需要安装的包列表,改为install比较合适,默认为default安装不全完成安装。HYPERLINK"http://blog.csdn.net/jiutao_tang/archive/2011/05/27/6450045.aspx"图文讲解2)HYPERLINK"http://blog.csdn.net/jiutao_tang/archive/2011/02/28/6213115.aspx"安装JDK,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录3)安装Tomcat,下载安装版。4)把Nutch解压到本地目录,例如D:/nutch。启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd/cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的