网络爬虫技术探究-第一文库 | 海量文档资源下载与分享平台 - 涵盖3.5亿+学术、行业、教育文档

搜文档

免费试读已结束，剩余 41 页请下载文档后查看

10 金币

下载此文档

/ 51

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

PAGEXIPAGEXIJIUJIANGUNIVERSITY毕业论文题目网络爬虫技术探究英文题目WebSpidersTechnologyExplore院系信息科学与技术学院专业计算机科学与技术姓名闻泽班级学号A081129指导教师邱兴兴二○一二年五月PAGEXI信息科学与技术学院学士学位论文PAGEIV摘要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站下的特定信息，如招聘信息，租房信息，以及网络营销常要的邮箱地址信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题：为何使用广度优先的爬行策略，以及如何实现广度优先爬行；系统实现过程中的数据存储；网页信息解析等。通过实现这一爬虫程序，可以搜集某一站点的所有URLs，并通过得到的URLs采集到页面的内容，在从内容中提取到需要的内容，如邮箱地址以及页面标题等。再将得到的URLs等采集到的数据存到数据库，以便检索。本文从搜索引擎的应用出发，探讨了网络爬虫在搜索引擎中的作用和地位，提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上，研究了页面爬取、解析等策略和算法，并使用Java实现了一个网络爬虫的程序，对其运行结果做了分析。关键词：网络爬虫，广度优先，搜索引擎AbstractTheWebSpiderisanautomatedprogramcollectsinformationontheInternet.TheWebSpidercannotonlysearchenginetocollectnetworkinformationandcanbeusedasdirectionalinformationcollection,directedacquisitionofsomesitespecificinformation,suchasrecruitmentinformation,rentalinformation,aswellasnetworkmarketingoftenhavetoe-mailaddressinformation.JAVAImplementationofanalgorithmbasedonbreadthfirstSpiderprogram.ThispaperdescribedthedatastoredintheWebSpidertoachievesomeofthemajorquestions:Whyuseabreadth-firstcrawlingstrategy,aswellashowtoimplementthebreadth-firstcrawling;systemimplementationprocess;webpageinformationtoresolve.ThroughtherealizationofthisSpidercancollectallofasite'sURLs,URLscollectedbyandgettothepagecontent,toextractfromthecontent,thecontent,suchasemailaddressandpagetitle.AndthengettheUrlscollectedwasdatasavedtothedatabasetoretrieve.Inthispaper,theapplicationofthesearchenginetoexploretheroleandstatusofaWebSpidersearchengine,webSpiderfunctionalityanddesignrequirements.WebSpidersystemstructureandworkingprincipleoftheanalysisbasedonstudystrategiesandalgorithmsofthepagecrawling,parsing,etc.andusetheJavaimplementationofaWebSpiderprogram,itsoperatingresultsanalysis.Keywords:Spider,BreadthFirstSearch,SearchEngine目录TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc327888529"摘要PAGEREF_Toc327888529\hIHYPERLINK\l"_Toc327888530"Abstract

(完整word版)Python网络爬虫实习报告

税务局如何应用网络爬虫技术获取企业涉税信息

Sosoo 10网络爬虫程序

网络爬虫技术探究

毕业论文主题网络爬虫的研究与实现

基于广度优先算法的多线程网络爬虫

网络爬虫Java实现原理

详解网络爬虫与WEB安全

主题网络爬虫的研究与设计的中期报告

主题网络爬虫的研究与设计的任务书

基于GPU加速的一体化电网高性能基础算法研究的开题报告

一年级语文及数学资料

水泥购销合同最新精编

草坪的管理技术

水泥购销合同编辑精选

泉城课文主要内容

水环境污染作文

水田输水灌溉工程经济效益分析论文

水泥购销合同精编

水泥购销合同

水泥购销合同精选

YA建设工程有限公司薪酬管理问题研究的开题报告

国土资源调查预算标准(地质调查部分)

水灾临时救助申请书

专利权刑法保护的中日比较研究的开题报告