如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
PAGEXIPAGEXIJIUJIANGUNIVERSITY毕业论文题目网络爬虫技术探究英文题目WebSpidersTechnologyExplore院系信息科学与技术学院专业计算机科学与技术姓名闻泽班级学号A081129指导教师邱兴兴二○一二年五月PAGEXI信息科学与技术学院学士学位论文PAGEIV摘要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到的数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析。关键词:网络爬虫,广度优先,搜索引擎AbstractTheWebSpiderisanautomatedprogramcollectsinformationontheInternet.TheWebSpidercannotonlysearchenginetocollectnetworkinformationandcanbeusedasdirectionalinformationcollection,directedacquisitionofsomesitespecificinformation,suchasrecruitmentinformation,rentalinformation,aswellasnetworkmarketingoftenhavetoe-mailaddressinformation.JAVAImplementationofanalgorithmbasedonbreadthfirstSpiderprogram.ThispaperdescribedthedatastoredintheWebSpidertoachievesomeofthemajorquestions:Whyuseabreadth-firstcrawlingstrategy,aswellashowtoimplementthebreadth-firstcrawling;systemimplementationprocess;webpageinformationtoresolve.ThroughtherealizationofthisSpidercancollectallofasite'sURLs,URLscollectedbyandgettothepagecontent,toextractfromthecontent,thecontent,suchasemailaddressandpagetitle.AndthengettheUrlscollectedwasdatasavedtothedatabasetoretrieve.Inthispaper,theapplicationofthesearchenginetoexploretheroleandstatusofaWebSpidersearchengine,webSpiderfunctionalityanddesignrequirements.WebSpidersystemstructureandworkingprincipleoftheanalysisbasedonstudystrategiesandalgorithmsofthepagecrawling,parsing,etc.andusetheJavaimplementationofaWebSpiderprogram,itsoperatingresultsanalysis.Keywords:Spider,BreadthFirstSearch,SearchEngine目录TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc327888529"摘要PAGEREF_Toc327888529\hIHYPERLINK\l"_Toc327888530"Abstract