如何用python爬取电影评论(Python3爬虫教程实战篇之一)
Python爬虫实战篇概述
基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。
解析阶段
打开猫眼电影首页 - 榜单 - TOP100榜。
可以看出,采用的是分页的形式。各个页面的 url 如下:
- 第一页:maoyan/board/4
- 第二页:maoyan/board/4?offset=10
- 第三页:maoyan/board/4?offset=20
- 第十页:maoyan/board/4?offset=90
从上面可以很容易看出,直接循环生成 offset 即可。
打开谷歌浏览器的开发者工具(快捷键:F12),分析下 DOM。
可以看出,我们需要的数据在 .board-content dd 下。
开发阶段
解析完成后,开始开发。这里分成三个步骤:
- 使用 Requests 抓取页面数据;
- 使用 PyQuery 解析内容;
- 将结果存储到文件中;
使用 Requests 抓取页面数据
使用 PyQuery 解析内容
将结果存储到文件中
获取完整代码
关注头条号 - 『蜻蜓软件』,私信回复『001』即可。
相关系列文章
Python3 爬虫教程系列文章会连载下去,大家可以关注『蜻蜓软件』的头条号,第一时间收到最新文章。
基础篇
- 什么是爬虫
- 网络库Reqeusts详解(上)
- 网络库Reqeusts详解(下)
- PyQuery详解
- Selenium详解
转载请注明:头条号 - 蜻蜓软件
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com