python网络爬虫需要注意什么(爬虫学习九之选择器组合和封装HttpClient练习)
Selector选择器组合使用
准备运行类
老样子,解析文件获取document对象
el#id: 元素 ID,比如: th#descinfo
代码及结果
el.class: 元素 class,比如: td. Clsc
代码及结果
el[attr]: 元素 class,比如: th[bgcolor]
代码及结果
任意组合,比如:th#descinfo. Clsa
代码及结果
ancestor child: 查找某个元素下子元素,比如:可以用. tra th 查找在class为tra下的所有 th元素
代码及结果
parent > child: 查找某个父元素下的直接子元素,比如
tr#tra > th
代码及结果
封装HttpClient
创建一个工具类
声明创建连接池管理器
配置连接数和每个主机的最大连接数
根据地址下载页面数据和图片名称
先来完成doGetHtml方法
1.首先获取HttpClient对象
2.创建HttpGet请求对象,设置Url地址
3.使用HttpClient发起请求,获取响应
4.解析响应,返回结果
获取HttpClient对象
创建HttpGet请求对象,设置Url地址
使用HttpClient发起请求,获取响应
解析响应,返回结果
创建一个获取请求配置信息的方法
在doGetHtml中配置请求信息
完成doGetImage方法,和doGetHtml类似,先将代码全部拷贝
修改的地方
步骤是
1. 获取图片后缀
2. 创建重命名图片
3. 下载图片
4. 返回图片名称
获取图片后缀
创建重命名图片
下载图片
返回图片名称
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com