python爬取网页数据流程 Python爬取网站博客教程并制作成PDF

鲜红的纯粹 2023-04-10 17:28:14

收藏赞分享

要把教程变成PDF有三步：

1、先生成空html，爬取每一篇教程放进一个新生成的div，这样就生成了包含所有教程的html文件(BeautifulSoup)

2、将html转换成pdf(wkhtmltopdf)

3、如果有反爬，在爬取的过程中还需要代理ip

BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

安装

pip3 install BeautifulSoup4

开始使用

将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

如下所示：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码.

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.

完整代码

运行过程截图：

生成的效果图：

,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

为什么我的手机里没有岁月的痕迹别让手机变成了手铐

给予拥抱
苹果手机怎么更换电铃手机维修自学教程

南城北城
使命召唤19匹配不到人使命召唤19主机xboxPS45进不去

出走几次
索尼ps5游戏网站索尼克未知边境PS5

成熟不稳重
釉上陶瓷工笔走兽绘画技法高级技师程银华谈颜色釉在陶瓷书法创作中的应用

一个人坚持
大话西游手游官方商店金牌手游大话西游上线乐视手机应用商店

九与我相关
大话西游2精简版口袋版本大话西游2口袋版安卓版本重新开启测试了

伴你看

秒懂生活

python爬取网页数据流程 Python爬取网站博客教程并制作成PDF

猜您喜欢

为什么我的手机里没有岁月的痕迹别让手机变成了手铐

苹果手机怎么更换电铃手机维修自学教程

使命召唤19匹配不到人使命召唤19主机xboxPS45进不去

索尼ps5游戏网站索尼克未知边境PS5

釉上陶瓷工笔走兽绘画技法高级技师程银华谈颜色釉在陶瓷书法创作中的应用

大话西游手游官方商店金牌手游大话西游上线乐视手机应用商店

大话西游2精简版口袋版本大话西游2口袋版安卓版本重新开启测试了

热门推荐

排行榜