如何用python爬取电影评论(Python3爬虫教程实战篇之一)

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(1)

Python爬虫实战篇概述

基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(2)

解析阶段

打开猫眼电影首页 - 榜单 - TOP100榜。

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(3)

可以看出,采用的是分页的形式。各个页面的 url 如下:

  • 第一页:maoyan/board/4
  • 第二页:maoyan/board/4?offset=10
  • 第三页:maoyan/board/4?offset=20
  • 第十页:maoyan/board/4?offset=90

从上面可以很容易看出,直接循环生成 offset 即可。

打开谷歌浏览器的开发者工具(快捷键:F12),分析下 DOM。

可以看出,我们需要的数据在 .board-content dd 下。

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(4)

开发阶段

解析完成后,开始开发。这里分成三个步骤:

  1. 使用 Requests 抓取页面数据;
  2. 使用 PyQuery 解析内容;
  3. 将结果存储到文件中;

使用 Requests 抓取页面数据

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(5)

使用 PyQuery 解析内容

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(6)

将结果存储到文件中

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(7)

获取完整代码

关注头条号 - 『蜻蜓软件』,私信回复『001』即可。

相关系列文章

如何用python爬取电影评论(Python3爬虫教程实战篇之一)(8)

Python3 爬虫教程系列文章会连载下去,大家可以关注『蜻蜓软件』的头条号,第一时间收到最新文章。

基础篇

  1. 什么是爬虫
  2. 网络库Reqeusts详解(上)
  3. 网络库Reqeusts详解(下)
  4. PyQuery详解
  5. Selenium详解

转载请注明:头条号 - 蜻蜓软件

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页