python爬虫怎么设置代理ip(python爬虫简单的添加代理进行访问的实现代码)
类别:脚本大全 浏览量:458
时间:2021-10-22 07:41:36 python爬虫怎么设置代理ip
python爬虫简单的添加代理进行访问的实现代码在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑user-agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的ip地址,代码如下:
|
import requests from lxml import etree url = "https://www.ip.cn" headers = { "user-agent" : "mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/70.0.3538.102 safari/537.36 opr/57.0.3098.116" , } pro = { # 'https': 'https://118.122.92.252:37901', #四川省成都市 电信 'https' : 'https://27.17.45.90:43411' , #湖北省武汉市 电信 } try : response = requests.get(url, headers = headers, proxies = pro) html_str = response.content.decode() # print(html_str) html = etree.html(html_str) message = html.xpath( "//li[@class='well']//p/text()" ) ip = html.xpath( "//li[@class='well']//p/code/text()" ) eng = html.xpath( "//li[@class='well']/p/text()" ) print (message[ 0 ] + ip[ 0 ]) print (message[ 1 ] + ip[ 1 ]) print (eng[ 2 ]) except requests.exceptions.proxyerror as e: print ( "当前代理异常" ) except : print ( "当前请求异常" ) |
在上面的代码中,调用requests库,对一个ip地址查询网页进行访问,随后使用lxml库的xpath对网页进行分析提取,返回用户访问此网页时自己的ip地址,如果代理设置成功,则会返回你的信息和ip地址,如下:
如果代理失败则会返回异常,在代码中使用了捕获异常,则会返回设置的提示信息,"当前代理异常",如果不是代理的错误则是"当前请求异常"
ps:免费的代理不是很稳定,在确认代码无误后,如果仍然返回异常,可尝试更换代理ip...
总结
以上所述是小编给大家介绍的python爬虫简单的添加代理进行访问的实现代码,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对开心学习网网站的支持!
原文链接:https://www.jianshu.com/p/41feb65c7d2a
您可能感兴趣
- 怎么用python获取目录(python 获得任意路径下的文件及其根目录的方法)
- python语言提供的3种基本数据类型(详解Python3 基本数据类型)
- python 微信发天气信息(python微信聊天机器人改进版定时或触发抓取天气预报、励志语录等,向好友推送)
- python获取txt文件内容(使用python读取.text文件特定行的数据方法)
- python菜单栏教程(Python3.5实现的三级菜单功能示例)
- 怎么用python实现链表(Python3实现的判断回文链表算法示例)
- 用python做一个表白视频(python仿抖音表白神器)
- 怎样在python中散点图(python使用Plotly绘图工具绘制散点图、线形图)
- python怎么用pandas读取两列数据(python 利用pandas将arff文件转csv文件的方法)
- python获取日期(Python根据当前日期取去年同星期日期)
- python读取word的表格(Python使用reportlab模块生成PDF格式的文档)
- python开发的独立商城(python实现电子产品商店)
- pythonmysql使用教程(Python异步操作MySQL示例使用aiomysql)
- python处理时间序列常用方法汇总(python整小时 整天时间戳获取算法示例)
- linux下python安装pip(在Docker中的ubuntu中安装Python3和Pip的问题)
- python怎么导入beautifulsoup元素(python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比)
- 休闲VS新古典 办公家居简约设计(办公家居简约设计)
- 15个新成 园 位置公布 深圳龙岗2022年共建花园建设又有大动作(15个新成园位置公布)
- 记者手记 书记带我去 巡街(记者手记书记带我去)
- 富士胶片集团将向土耳其东南部地震灾民捐赠5000万日元 | 美通社(富士胶片集团将向土耳其东南部地震灾民捐赠5000万日元)
- 二次创业 的富士胶片,在进博会上首次展示完成转型后的全线医疗产品(二次创业的富士胶片)
- 富士胶片 中国 我们对上海的信心没有任何改变(富士胶片中国)
热门推荐
- 阿里云ecs实例详解(阿里云ecs服务器 修改php上传最大限制的方法)
- mysql常用数据模型(MySQL数据库基于sysbench实现OLTP基准测试)
- pandas怎么抽出重复数据(pandas去除重复列的实现方法)
- 无盘服务器配置要求(云服务器配置怎么选)
- MySQL 8.0.19安装详细教程(windows 64位)(MySQL 8.0.19安装详细教程windows 64位)
- thinkphp兼容dedecms(DedeCMS Error:Tag disabled:"php"的解决办法)
- nginx做图片服务器代理(使用nginx动态转换图片大小生成缩略图)
- pythonpandas使用攻略(详解Python中pandas的安装操作说明傻瓜版)
- 网络虚拟机系统安装教程(NPOINT免费虚拟主机管理系统windows2003的安装方法)
- zabbix5.4监控磁盘可用内存大小(解析Zabbix 5.0磁盘自动发现和读写监控的问题)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9