python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）

戒卜掉旳爱 2023-02-12 15:33:59

收藏赞分享

分析QQ空间

登录QQ空间

爬取第一步，分析站点，首先需要知道如何登录QQ空间。最初想法是用requests库配置登录请求，模拟登录，但是不久便放弃了这一思路，请看下图↓

python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）(1)

根据登录按钮绑定的监听事件可以追踪到该按钮的点击事件如下：

python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）(2)

账号加密是必然的，但这一堆堆的代码真心不好解析，有耐心的勇士尽情一试！

在排除这种登录方法后，选择selenium模拟用户登录不失为省时省力的方法，而且我们只是需要通过selenium完成登录，获取到cookies和后面讲述的g_tk参数后，就可以停用了，所以效率并不太低。

分析空间相册

登录以后，页面会跳转至 [https://user.qzone.qq.com/{QQ_NUMBER}](javascript:;), 这时把鼠标移到导航栏你会发现，所有的导航栏链接都是javascript:; 。没错就是这么坑，一切都是暗箱操作。

当然这并不难处理，使用调试工具捕获点击后产生的请求，然后过滤出正确的请求包即可。因为网络包非常多，那么怎么过滤呢，猜想相册数据的API必然会返回个列表list，尝试过滤list然后逐个排除，最后定位到请求包。下面是通过fcg_list过滤后的数据包，列表信息以jsonp格式返回，稍作处理即可当做json格式来读取（后面有讲）。

python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）(3)

album list

从Headers和Response可以分别获取到两组重要信息：

request 获取相册列表所需的请求信息，包括请求链接和参数
response 数据包包含的所有相册的信息，是每个相册所含照片对应的请求包参数的数据来源

先看请求包：

# url https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/fcg_list_album_v3 # args g_tk: 477819917 callback: shine0_Callback t: 691481346 hostUin: 123456789 uin: 123456789 appid: 4 inCharset: utf-8 outCharset: utf-8 source: qzone plat: qzone format: jsonp notice: 0 filter: 1 handset: 4 pageNumModeSort: 40 pageNumModeClass: 15 needUserInfo: 1 idcNum: 4 callbackFun: shine0 _: 1551788226819

其中hostUin, uin都是QQ号，g_tk是必须的且每次重新登录都会更新（后面有讲如何获取），其它有些参数不是必须的，我尝试后整理出如下请求参数：

query = { 'g_tk': self.g_tk, 'hostUin': self.username, 'uin': self.username, 'appid': 4, 'inCharset': 'utf-8', 'outCharset': 'utf-8', 'source': 'qzone', 'plat': 'qzone', 'format': 'jsonp' }

接下来看jsonp格式的跨域响应包：

shine0_Callback({ "code":0, "subcode":0, "message":"", "default":0, "data": { "albumListModeSort" : [ { "allowAccess" : 1, "anonymity" : 0, "bitmap" : "10000000", "classid" : 106, "comment" : 11, "createtime" : 1402661881, "desc" : "", "handset" : 0, "id" : "V13LmPKk0JLNRY", "lastuploadtime" : 1402662103, "modifytime" : 1408271987, "name" : "毕业季", "order" : 0, "pre" : "http:\/\/b171.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!\/a\/dIY29GUbJgAA", "priv" : 1, "pypriv" : 1, "total" : 4, "viewtype" : 0 },

shine0_Callback是请求包的callbackFun参数决定的，如果没这个参数，响应包会以_Callback作为默认名，当然这都不重要。所有相册信息以json格式存入albumListModeSort中，上面仅截取了一个相册的信息。

相册信息中，name代表相册名称，id作为唯一标识可用于请求该相册内的照片信息，而pre仅仅是一个预览缩略图的链接，无关紧要。

分析单个相册

与获取相册信息类似，进入某一相册，使用cgi_list过滤数据包，找到该相册的照片信息

python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）(4)

photo list

同样的道理，根据数据包可以获取照片列表信息的请求包和响应信息，先看请求：

# url https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_list_photo # args g_tk: 477819917 callback: shine0_Callback t: 952444063 mode: 0 idcNum: 4 hostUin: 123456789 topicId: V13LmPKk0JLNRY noTopic: 0 uin: 123456789 pageStart: 0 pageNum: 30 skipCmtCount: 0 singleurl: 1 batchId: notice: 0 appid: 4 inCharset: utf-8 outCharset: utf-8 source: qzone plat: qzone outstyle: json format: jsonp json_esc: 1 question: answer: callbackFun: shine0 _: 1551790719497

其中有几个关键参数：

g_tk - 与相册列表参数一致
topicId - 与相册列表参数中的id一致
pageStart - 本次请求照片的起始编号
pageNum - 本次请求的照片数量

为了一次性获取所有照片，可以将pageStart设为0，pageNum设为所有相册所含照片的最大值。

同样可以对上面的参数进行简化，在相册列表请求参数的基础上添加topicId，pageStart和pageNum三个参数即可。

下面来看返回的照片列表信息：

shine0_Callback({ "code":0, "subcode":0, "message":"", "default":0, "data": { "limit" : 0, "photoList" : [ { "batchId" : "1402662093402000", "browser" : 0, "cameratype" : " ", "cp_flag" : false, "cp_x" : 455, "cp_y" : 388, "desc" : "", "exif" : { "exposureCompensation" : "", "exposureMode" : "", "exposureProgram" : "", "exposureTime" : "", "flash" : "", "fnumber" : "", "focalLength" : "", "iso" : "", "lensModel" : "", "make" : "", "meteringMode" : "", "model" : "", "originalTime" : "" }, "forum" : 0, "frameno" : 0, "height" : 621, "id" : 0, "is_video" : false, "is_weixin_mode" : 0, "ismultiup" : 0, "lloc" : "NDN0sggyKs3smlOg6eYghjb0ZRsmAAA!", "modifytime" : 1402661792, "name" : "QQ图片20140612104616", "origin" : 0, "origin_upload" : 0, "origin_url" : "", "owner" : "123456789", "ownername" : "123456789", "photocubage" : 91602, "phototype" : 1, "picmark_flag" : 0, "picrefer" : 1, "platformId" : 0, "platformSubId" : 0, "poiName" : "", "pre" : "http:\/\/b171.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!\/a\/dIY29GUbJgAA&bo=pANtAgAAAAABCeY!", "raw" : "http:\/\/r.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!\/r\/dIY29GUbJgAA", "raw_upload" : 1, "rawshoottime" : 0, "shoottime" : 0, "shorturl" : "", "sloc" : "NDN0sggyKs3smlOg6eYghjb0ZRsmAAA!", "tag" : "", "uploadtime" : "2014-06-13 20:21:33", "url" : "http:\/\/b171.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!\/b\/dIY29GUbJgAA&bo=pANtAgAAAAABCeY!", "width" : 932, "yurl" : 0 }, // ... ] "t" : "952444063", "topic" : { "bitmap" : "10000000", "browser" : 0, "classid" : 106, "comment" : 1, "cover_id" : "NDN0sggyKs3smlOg6eYghjb0ZRsmAAA!", "createtime" : 1402661881, "desc" : "", "handset" : 0, "id" : "V13LmPKk0JLNRY", "is_share_album" : 0, "lastuploadtime" : 1402662103, "modifytime" : 1408271987, "name" : "毕业季", "ownerName" : "707922098", "ownerUin" : "707922098", "pre" : "http:\/\/b171.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!\/a\/dIY29GUbJgAA", "priv" : 1, "pypriv" : 1, "share_album_owner" : 0, "total" : 4, "url" : "http:\/\/b171.photo.store.qq.com\/psb?\/V13LmPKk0JLNRY\/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!\/b\/dIY29GUbJgAA", "viewtype" : 0 }, "totalInAlbum" : 4, "totalInPage" : 4 }

返回的照片信息都存于photoList, 上面同样只截取了一张照片的信息，后面一部分返回的是当前相册的一些基本信息。totalInAlbum， totalInPage存储了当前相册总共包含的照片数及本次返回的照片数。而我们需要下载的图片链接则是url！

OK, 到此，所有请求和响应数据都分析清楚了，接下来便是coding的时候了。

确定爬取方案
创建qqzone类，初始化用户信息
使用Selenium模拟登录
获取Cookies和g_tk
使用requests获取相册列表信息
遍历相册，获取照片列表信息并下载照片

创建qqzone类

class qqzone(object): """QQ空间相册爬虫""" def __init__(self, user): self.username = user['username'] self.password = user['password']

模拟登录

from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.common.exceptions import WebDriverExceptio # ... def _login_and_get_args(self): """登录QQ，获取Cookies和g_tk""" opt = webdriver.ChromeOptions() opt.set_headless() driver = webdriver.Chrome(chrome_options=opt) driver.get('https://i.qq.com/') # time.sleep(2) logging.info('User {} login...'.format(self.username)) driver.switch_to.frame('login_frame') driver.find_element_by_id('switcher_plogin').click() driver.find_element_by_id('u').clear() driver.find_element_by_id('u').send_keys(self.username) driver.find_element_by_id('p').clear() driver.find_element_by_id('p').send_keys(self.password) driver.find_element_by_id('login_button').click() time.sleep(1) driver.get('https://user.qzone.qq.com/{}'.format(self.username))

此处需要注意的是：
使用selenium需要安装对应的webdriver
可以通过webdriver.Chrome()指定浏览器位置，否则默认从环境变量定义的路径查找
如果电脑打开浏览器较慢，可能需要在driver.get后sleep几秒

获取 Cookies

使用selenium获取Cookies非常方便

self.cookies = driver.get_cookies()

获取 g_tk

获取g_tk最开始可以说是本爬虫最大的难点，因为从网页中根本找不到直接写明的数值，只有各种函数调用。为此我全局搜索，发现好多地方都有其获取方式。

g_tk

最后选择了其中一处，通过selenium执行脚本的功能成功获取到了g_tk！

self.g_tk = driver.execute_script('return QZONE.FP.getACSRFToken()')

到此，selenium的使命就完成了，剩下的将通过requests来完成。

初始化 request.session

接下来需要逐步生成请求然后获取数据。但是为方便起见，这里使用会话的方式请求数据，配置好cookie和headers，省的每次请求都设置一遍。

def _init_session(self): self.session = requests.Session() for cookie in self.cookies: self.session.cookies.set(cookie['name'], cookie['value']) self.session.headers = { 'Referer': 'https://qzs.qq.com/qzone/photo/v7/page/photo.html?init=photo.v7/module/albumList/index&navBar=1', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36' }

请求相册信息

获取相册信息，需要先封装好请求参数，然后通过session.get爬取数据，再通过正则匹配以json格式读取jsonp数据，最后解析所需的name和id。

def _get_ablum_list(self): """获取相册的列表信息""" album_url = '{}{}'.format( 'https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/fcg_list_album_v3?', self._get_query_for_request()) logging.info('Getting ablum list id...') resp = self.session.get(album_url) data = self._load_callback_data(resp) album_list = {} for item in data['data']['albumListModeSort']: album_list[item['name']] = item['id'] return album_list

其中的参数组合来自下面的函数_get_query_for_request函数。

def _get_query_for_request(self, topicId=None, pageStart=0, pageNum=100): """获取请求相册信息或照片信息所需的参数 Args: topicId: 每个相册对应的唯一标识符 pageStart: 请求某个相册的照片列表信息所需的起始页码 pageNum: 单次请求某个相册的照片数量 Returns: 一个组合好所有请求参数的字符串 """ query = { 'g_tk': self.g_tk, 'hostUin': self.username, 'uin': self.username, 'appid': 4, 'inCharset': 'utf-8', 'outCharset': 'utf-8', 'source': 'qzone', 'plat': 'qzone', 'format': 'jsonp' } if topicId: query['topicId'] = topicId query['pageStart'] = pageStart query['pageNum'] = pageNum return '&'.join('{}={}'.format(key, val) for key, val in query.items())

其中的jsonp解析函数如下，主体部分就是一个正则匹配，非常简单。

def _load_callback_data(self, resp): """以json格式解析返回的jsonp数据""" try: resp.encoding = 'utf-8' data = loads(re.search(r'.*?\(({.*}).*?\).*', resp.text, re.S)[1]) return data except ValueError: logging.error('Invalid input')

解析并下载照片

获取相册列表后，逐个请求照片列表信息，进而逐一下载

def _get_photo(self, album_name, album_id): """获取单个相册的照片列表信息，并下载该相册所有照片""" photo_list_url = '{}{}'.format( 'https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_list_photo?', self._get_query_for_request(topicId=album_id)) logging.info('Getting photo list for album {}...'.format(album_name)) resp = self.session.get(photo_list_url) data = self._load_callback_data(resp) if data['data']['totalInPage'] == 0: return None file_dir = self.get_path(album_name) for item in data['data']['photoList']: path = '{}/{}.jpg'.format(file_dir, item['name']) logging.info('Downloading {}-{}'.format(album_name, item['name'])) self._download_image(item['url'], path)

下载图片也是通过request,记得设置超时时间。

def _download_image(self, url, path): """下载单张照片""" try: resp = self.session.get(url, timeout=15) if resp.status_code == 200: open(path, 'wb').write(resp.content) except requests.exceptions.Timeout: logging.warning('get {} timeout'.format(url)) except requests.exceptions.ConnectionError as e: logging.error(e.__str__) finally: pass

爬取测试
爬取过程

capturing
爬取结果

downloaded photos

写在最后
如果将请求参数中的format由jsonp改成json，则可以直接获取json数据
本用例并未使用多进程或多线程，所以速率不算快，还有待优化的地方
,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

python爬取陌生人的qq空间（Python网络爬虫-------爬取QQ空间相册）

猜您喜欢

做烤瓷牙套要多久（做烤瓷牙套能用多久）

镶牙需要几天时间（镶牙不用等一周）

3d打印烤瓷牙和全瓷牙（3D打印牙装进口中）

愁思的诗词名句（历代写情愁思的诗词）

宋词中的蝶恋花（宋词坛最深情的一首蝶恋花）

国内三大运营商频段划分（三大运营商常用频段有哪些）

假的戴森比真的好（什么理由那么贵）

热门推荐

排行榜