pdf打开没有书签 pdf怎么会有扫描版这种玩意
最近又在看一些pdf书,但大多数都是扫描版,没目录书签真的很恼火,想找点内容都必须拉到顶部看下目录的页码,然后再去定位,下面我们就来聊聊关于pdf打开没有书签 pdf怎么会有扫描版这种玩意?接下来我们就一起去了解一下吧!
pdf打开没有书签 pdf怎么会有扫描版这种玩意
写本文的目的最近又在看一些pdf书,但大多数都是扫描版,没目录书签真的很恼火,想找点内容都必须拉到顶部看下目录的页码,然后再去定位。
因此我就想能不能通过python写个脚本,把目录导进去。
实现思路- 我需要获得目录 为达到这个目的,想到下面几种方案。
截图。通过orc识别,如QQ截图的识别,或者其他识别工具,从扫描版上获取目录。
书籍网站上找目录-如http://www.china-pub.com/
程序集成orc库来扫描整个pdf获取目录。
- 我需要有一个现成的pdf库,来供我读取和操作pdf文件
这玩意百分之百有,github上一找就找到了一个叫做Pypdf3的东西
编码思路- 从网上找到目录
我这里是手动复制,其实也可以使用爬虫,这样只需要输入网页地址即可。 这里选择该方案主要我还没有动力去了解orc扫描。但orc扫描应该是最优方案了。
- 导入目录,依靠正则表达式做数据清洗。生成树形结构
请小心中文乱码。
ps:正则表达式的?<= 和?=非常有用,前者表明匹配这个规则之后的数据 ,后者表明匹配这个规则之前的数据
- 操作pdf加标签
网上下载下来的目录需要核实对不对得上。有可能你找的电子书版本和你手头上的电子书版本对不上。
核实手头上的电子书内容的页码和在pdf中的实际页码的偏移量。这影响了你标签加的准不准。
- 输出文件,这基本就完事了,然后再把它搞成shell脚本凑合着也就能用了
数据清洗其实挺麻烦的,因为目录结构无法保证是一致的
输出的文件还是有一点偏差,不过偏差不大就是了。
从网上找目录也不是一个稳妥的方案,只能说是临时方案,所以还是得搞orc扫描
一些请求哇,兄弟,这玩意还是要有专业的工具比较靠谱。
有哪些优秀的orc库,或者说可以直接生成目录的工具请告知啊。
peace and love。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com