(完整word版)Python网络爬虫实习报告.doc
上传人:fa****楠吖 上传时间:2024-09-11 格式:DOC 页数:13 大小:187KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

(完整word版)Python网络爬虫实习报告.doc

(完整word版)Python网络爬虫实习报告.doc

预览

免费试读已结束,剩余 3 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Python网络爬虫实习报告Python网络爬虫实习(报告)PAGE\*MERGEFORMAT-11-目录TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc503355801"一、选题背景PAGEREF_Toc503355801\h-2-HYPERLINK\l"_Toc503355802"二、爬虫原理PAGEREF_Toc503355802\h-2-HYPERLINK\l"_Toc503355803"三、爬虫历史和分类PAGEREF_Toc503355803\h-2-HYPERLINK\l"_Toc503355804"四、常用爬虫框架比较PAGEREF_Toc503355804\h-5-HYPERLINK\l"_Toc503355805"五、数据爬取实战(豆瓣网爬取电影数据)PAGEREF_Toc503355805\h-6-HYPERLINK\l"_Toc503355806"1分析网页PAGEREF_Toc503355806\h-6-HYPERLINK\l"_Toc503355808"2爬取数据PAGEREF_Toc503355808\h-7-HYPERLINK\l"_Toc503355810"3数据整理、转换PAGEREF_Toc503355810\h-10-HYPERLINK\l"_Toc503355812"4数据保存、展示PAGEREF_Toc503355812\h-12-HYPERLINK\l"_Toc503355814"5技术难点关键点PAGEREF_Toc503355814\h-12-HYPERLINK\l"_Toc503355816"六、总结PAGEREF_Toc503355816\h-14-选题背景爬虫原理爬虫历史和分类常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签五、数据爬取实战(豆瓣网爬取电影数据)1分析网页#获取html源代码def__getHtml():data=[]pageNum=1pageSize=0try:while(pageSize<=125):#headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11',#'Referer':None#注意如果依然不能抓取的话,这里可以设置抓取网站的host#}#opener=urllib.request.build_opener()#opener.addheaders=[headers]url="https://movie.douban.com/top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=urllib.request.urlopen(url).read().decode("utf-8")data.append(urllib.request.urlopen(url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def__getData(html):title=[]#电影标题#rating_num=[]#评分range_num=[]#排名#rating_people_num=[]#评价人数movie_author=[]#导演data={}#bs4解析htmlsoup=Beau