最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)

图/文:迷神

现在写爬虫也难啊,现在python爬虫写多了,发觉很多大型网站都开始用js 加密技术。记得,有次在利用webQQ登录时需要的某些参数时,从js中获取到的js的加密的函数。如果要转化成对应的Python代码,还是有点难度的。那又没办法直接执行JavaScript代码呢,答案是肯定有的。

为了实现我们自己的Python爬虫的春秋大梦,我们还是要一抗到底,对,突破它。

本次推荐推荐的主角是:PyExecJS

PyExecJS简单安装和实例

python安装PyExecJS很简单pip install PyExecJS

使用实例:

# -*- coding: UTF-8 -*- import execjs #hash33 是javascript函数 encrypt_fun = execjs.compile(""" function hash33(t) { for (var e = 0, i = 0, n = t.length; i < n; i) e = (e << 5) t.charCodeAt(i); return 2147483647 & e } """) print encrypt_fun.call("hash33", "5Kj0l5GEwtMm-VuxuL98Rt*2Qd-UDmNaaQgxtGtZcm9-Umco7PUC8GuQ5nI-3jut") #快速执行js代码,比如: #execjs.eval("1 2 3 4") #>结果:355347598

其实,这个主要利用的就是python可以执行JavaScript,execjs会自动使用当前电脑上的运行时环境(建议用nodejs,与Phantomjs)。现在很多网站都喜欢使用JavaScript生成各种密钥令牌,加密,主要是需要大家举一反三,触类旁通即可。

PyExecJS实战举例

目标地址:ac。scmor。com 自己具体替换接口。

通过执行加密函数的js文件,来抓取活的最终这个上面的所有镜像网址。

最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)(1)

目标地址

目标网址里面的地址,都是被加密过的,如图:

最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)(2)

加密地址了

通过查看发觉是使用一个叫visit() 的js函数加密了:

最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)(3)

加密

2个相关函数如下:

function visit(url) { var newTab = window.open('about:blank'); if(Gword!='') url = strdecode(url); newTab.location.href = url; } #其实这个 Gword,是页面定义的变量:var Gword = "21b5del6oIO57e01a", function strdecode(string) { string = base64decode(string); key = Gword 'ok'; len = key.length; code = ''; for (i = 0; i < string.length; i ) { var k = i % len; code = String.fromCharCode(string.charCodeAt(i) ^ key.charCodeAt(k)) } return base64decode(code) }

我们实际用到的就是这个 strdecode函数,当然要加上密钥函数,密钥可以去网站实际搜索下,即可搜索到,有Gword和hn2个, 另外,这个strdecode函数还调用了另外一个函数:base64decode(),而base64decode又调用了一个 base64DecodeChars 的数组,把这些都 添加文件里面的js代码,encrypt.js 如下:

最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)(4)

完整代码

有了加密的js文件,我们就要实现我们最终的python代码,主要流程就是先爬取网页,获取到js加密的网址,然后python调用执行JavaScript代码,进行还原即可。

最终代码如下:

# coding=utf-8 import requests import execjs import re node = execjs.get() # print(execjs.get().name) source_url = 'http://ac.scmor.com/' source_headers = { 'User-Agent':'Mozilla/5.0 (Windows; ) AppleWebKit/537 (KHTML, Gecko) Chrome/55 Safari/537', } source_res = requests.get(url=source_url, headers=source_headers) re_source = re.findall(r'var autourl=\["(.*)"\];var',source_res.text) re_source = re_source[0] file = './encrypt.js' ctx = node.compile(open(file).read()) re_source = re_source.split('","') for each_source in re_source: #print(each_source) md_js = 'strdecode("%s")' % each_source #破解中的函数, href = ctx.eval(md_js) print(href)

执行结果:

最好用的js网络爬虫库(利用Python突破大型网站JavaScript反爬虫加密技术)(5)

当初除了这个模块,还有一个:js2py,pip install js2py 即可安装,比较类似,大家自行学习啦。

好了,就这么多啦,有问题大家可以留言交流,觉得不错,也多多转发和关注迷神哦,后面还将继续分享更多的精彩内容哦。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页