(完整word版)Python网络爬虫实习报告-第一文库 | 海量文档资源下载与分享平台 - 涵盖3.5亿+学术、行业、教育文档

搜文档

免费试读已结束，剩余 3 页请下载文档后查看

10 金币

下载此文档

/ 13

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

Python网络爬虫实习报告Python网络爬虫实习（报告）PAGE\*MERGEFORMAT-11-目录TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc503355801"一、选题背景PAGEREF_Toc503355801\h-2-HYPERLINK\l"_Toc503355802"二、爬虫原理PAGEREF_Toc503355802\h-2-HYPERLINK\l"_Toc503355803"三、爬虫历史和分类PAGEREF_Toc503355803\h-2-HYPERLINK\l"_Toc503355804"四、常用爬虫框架比较PAGEREF_Toc503355804\h-5-HYPERLINK\l"_Toc503355805"五、数据爬取实战（豆瓣网爬取电影数据）PAGEREF_Toc503355805\h-6-HYPERLINK\l"_Toc503355806"1分析网页PAGEREF_Toc503355806\h-6-HYPERLINK\l"_Toc503355808"2爬取数据PAGEREF_Toc503355808\h-7-HYPERLINK\l"_Toc503355810"3数据整理、转换PAGEREF_Toc503355810\h-10-HYPERLINK\l"_Toc503355812"4数据保存、展示PAGEREF_Toc503355812\h-12-HYPERLINK\l"_Toc503355814"5技术难点关键点PAGEREF_Toc503355814\h-12-HYPERLINK\l"_Toc503355816"六、总结PAGEREF_Toc503355816\h-14-选题背景爬虫原理爬虫历史和分类常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架：Python-goose框架可提取的信息包括：<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签五、数据爬取实战（豆瓣网爬取电影数据）1分析网页#获取html源代码def__getHtml():data=[]pageNum=1pageSize=0try:while(pageSize<=125):#headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11',#'Referer':None#注意如果依然不能抓取的话，这里可以设置抓取网站的host#}#opener=urllib.request.build_opener()#opener.addheaders=[headers]url="https://movie.douban.com/top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=urllib.request.urlopen(url).read().decode("utf-8")data.append(urllib.request.urlopen(url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def__getData(html):title=[]#电影标题#rating_num=[]#评分range_num=[]#排名#rating_people_num=[]#评价人数movie_author=[]#导演data={}#bs4解析htmlsoup=Beau

(完整word版)实习报告心得

(完整word版)Python网络爬虫实习报告

(完整word版)python学习笔记

(完整word版)Python课程设计

(完整word版)GPS实习报告

网络爬虫技术探究

网络爬虫Java实现原理

详解网络爬虫与WEB安全

主题网络爬虫的研究与设计的中期报告

基于网络爬虫的数据采集系统设计与实现的开题报告

基于GPU加速的一体化电网高性能基础算法研究的开题报告

一年级语文及数学资料

水泥购销合同最新精编

草坪的管理技术

水泥购销合同编辑精选

泉城课文主要内容

水环境污染作文

水田输水灌溉工程经济效益分析论文

水泥购销合同精编

水泥购销合同

水泥购销合同精选

YA建设工程有限公司薪酬管理问题研究的开题报告

国土资源调查预算标准(地质调查部分)

水灾临时救助申请书

专利权刑法保护的中日比较研究的开题报告