python提取json数据(Python爬取数据保存为Json格式的代码示例)
类别:脚本大全 浏览量:2226
时间:2021-10-19 06:20:04 python提取json数据
Python爬取数据保存为Json格式的代码示例python爬取数据保存为json格式
代码如下:
|
#encoding:'utf-8' import urllib.request from bs4 import beautifulsoup import os import time import codecs import json #找到网址 def getdatas(): # 伪装 header = { 'user-agent' : "mozilla/5.0 (x11; cros i686 2268.111.0) applewebkit/536.11 (khtml, like gecko) chrome/20.0.1132.57 safari/536.11" } # url="https://movie.douban.com/top250" url = "file:///e:/scrapy/2018-04-27/movie/movie.html" ret = urllib.request.request(url = url,headers = header) # 打开网页 res = urllib.request.urlopen(ret) # 转化格式 response = beautifulsoup(res, 'html.parser' ) # 找到想要数据的父元素 datas = response.find_all( 'li' ,{ 'class' : 'item' }) # print(datas) #创建存放数据的文件夹 folder_name = "output" if not os.path.exists(folder_name): os.mkdir(folder_name) # 定义文件 current_time = time.strftime( '%y-%m-%d' ,time.localtime()) file_name = "move" + current_time + ".json" # 文件路径 file_path = folder_name + "/" + file_name for item in datas: # print(item) dict1 = {} dict1[ 'rank' ] = item.find( 'li' ,{ 'class' : 'pic' }).find( 'em' ).get_text() dict1[ 'title' ] = item.find( 'li' ,{ 'class' : 'info' }).find( 'li' ,{ 'class' : 'hd' }).find( 'a' ).find( 'span' ,{ 'class' : 'title' }).get_text() dict1[ 'picurl' ] = item.find( 'li' ,{ 'class' : 'pic' }).find( 'a' ).find( 'img' ).get( 'src' ) # print(picurl) # 保存数据为json格式 try : with codecs. open (file_path, 'a' ,encoding = "utf-8" ) as fp: fp.write(json.dumps(dict1,ensure_ascii = false) + ",\n" ) except ioerror as err: print ( 'error' + str (err)) finally : fp.close() pass getdatas() # 爬取数据 |
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对开心学习网的支持。如果你想了解更多相关内容请查看下面相关链接
原文链接:https://blog.csdn.net/zhanghl150426/article/details/82022339
您可能感兴趣
- python数据结构全攻略(详解python数据结构和算法)
- python程序开发过程(python调用外部程序的实操步骤)
- python樱花绽放代码(新年快乐! python实现绚烂的烟花绽放效果)
- python怎么导入beautifulsoup元素(python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比)
- python微信防封(深入学习微信网址链接解封的防封原理visit_type)
- python弹球游戏编写过程(python实现坦克大战游戏 附详细注释)
- python3.7标准库官方手册(Python3.7 dataclass使用指南小结)
- python 常用爬虫库(Python常用爬虫代码总结方便查询)
- pythonredis使用场景(python 通过SSHTunnelForwarder隧道连接redis的方法)
- python 文本文件读取方法(Python逐行读取文件中内容的简单方法)
- python正则表达式入门(Python正则表达式实现简易计算器功能示例)
- python中lambda教程(浅析python的Lambda表达式)
- pythonpandas数据类型(Python3.5 Pandas模块之Series用法实例分析)
- 笨办法学python3目录(如何愉快地迁移到 Python 3)
- python 正则表达式在代码里的使用(python中正则表达式与模式匹配)
- pythonpick教程(Python使用Pickle模块进行数据保存和读取的讲解)
- 解析葡萄牙6-1瑞士 进攻多点开花,贡萨洛-拉莫斯一战成名(解析葡萄牙6-1瑞士)
- 这支 奇兵队 腕大 有范儿还各怀绝技,毒贩杀人犯见了都要仓皇而逃(这支奇兵队腕大)
- 雄藩崛起 奇兵队与幕末长州藩军事改革(雄藩崛起奇兵队与幕末长州藩军事改革)
- 九月初,爱如蜜糖,甜到心扉,迷恋彼此,一日不见兮,思之若狂(九月初爱如蜜糖)
- ()
- 对你思念入骨的女人,跟你见面时会有这几种表现,藏都藏不住(对你思念入骨的女人)
热门推荐
- zabbix监控sql server集群(zabbix 监控mysql的方法)
- laravel查询条件数组写法(解决Laravel 使用insert插入数据,字段created_at为0000的问题)
- idea配置mysql最大连接数(IDEA连接不上MySQL端口号占用的解决)
- 欧洲云服务器和VPS有哪些区别?(欧洲云服务器和VPS有哪些区别?)
- dubbo和项目搭建(使用docker部署dubbo项目的方法步骤)
- dedecms数据库调用(DEDECMS直接获取软件模型本地下载地址或服务器名称)
- 为什么做排版老出错(关于排版中经常见的问题及解决方法分享)
- 云服务器磁盘管理教程(云主机如何用虚拟磁盘扩容?)
- dockerpull镜像的过程(详解docker pull 下来的镜像都存到了哪里)
- 腾讯云开启所有端口(腾讯云端口怎么设置?腾讯云CVM开启端口图文教程)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9