python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）

距離太可怕 2023-06-14 22:19:21

收藏赞分享

Selector选择器组合使用

准备运行类

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(1)

老样子，解析文件获取document对象

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(2)

el#id: 元素 ID，比如： th#descinfo

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(3)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(4)

el.class: 元素 class，比如： td. Clsc

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(5)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(6)

el[attr]: 元素 class，比如： th[bgcolor]

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(7)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(8)

任意组合，比如：th#descinfo. Clsa

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(9)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(10)

ancestor child: 查找某个元素下子元素，比如：可以用. tra th 查找在class为tra下的所有 th元素

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(11)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(12)

parent > child: 查找某个父元素下的直接子元素,比如

tr#tra > th

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(13)

代码及结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(14)

封装HttpClient

创建一个工具类

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(15)

声明创建连接池管理器

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(16)

配置连接数和每个主机的最大连接数

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(17)

根据地址下载页面数据和图片名称

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(18)

先来完成doGetHtml方法

1.首先获取HttpClient对象

2.创建HttpGet请求对象，设置Url地址

3.使用HttpClient发起请求，获取响应

4.解析响应，返回结果

获取HttpClient对象

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(19)

创建HttpGet请求对象，设置Url地址

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(20)

使用HttpClient发起请求，获取响应

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(21)

解析响应，返回结果

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(22)

创建一个获取请求配置信息的方法

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(23)

在doGetHtml中配置请求信息

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(24)

完成doGetImage方法，和doGetHtml类似，先将代码全部拷贝

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(25)

修改的地方

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(26)

步骤是

1．获取图片后缀

2．创建重命名图片

3．下载图片

4．返回图片名称

获取图片后缀

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(27)

创建重命名图片

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(28)

下载图片

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(29)

返回图片名称

python网络爬虫需要注意什么（爬虫学习九之选择器组合和封装HttpClient练习）(30)

,

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

nba球员评价德里克罗斯（客观评价NBA球星德里克）

风强吻我
世界上最漂亮的十大蛋糕（世界上著名的蛋糕）

留半温暖
圣殿春秋有几个结局（一部找寻我们终其一生是否可以只做一件事的故事）

活著便精彩
岳不群什么时候知道独孤九剑（江湖中的大佬都能看出独孤九剑）

涐溅悳可怜
新的一天开始做一个善良的人（年轻人要做一个nice的人）

有我温柔
书籍推荐经典好书资治通鉴（能力建设东检书苑）

追风逐日
宋晓峰退出本山传媒了吗（宋晓峰直播狂揽过亿收入）

铁石心

热门推荐

排行榜