python爬取别人微信（Python爬取QQ）

嬡颩嬡沵 2022-10-26 14:59:06

收藏赞分享

QQ 空间在 2005 年被腾讯开发，已经经历了 15 个年头，在还没有微信的年代，看网友发表的心情、心事、照片大多都在 QQ 空间的里。它承载了80、90 后的大量青春，下面我们一起用 selenium 模块导出说说和相册回忆青春吧

安装 selenium

selenium 是一个在浏览器中运行，以模拟用户操作浏览器的方式获取网页源码，使用 pip 安装 selenium 模块

pip install selenium

查看 chrome 浏览器版本并下载对应的 chrome 浏览器驱动

python爬取别人微信（Python爬取QQ）(1)

在 http://npm.taobao.org/mirrors/chromedriver 网址中找到相同版本的 chrome 驱动，并放在 python 程序运行的同一个文件夹中

登陆

按 F12 检查网页源代码，找到登录和密码的文本框，如下图所示

python爬取别人微信（Python爬取QQ）(2)

def login(login_qq,password, business_qq): ''' 登陆 :param login_qq: 登陆用的QQ :param password: 登陆的QQ密码 :param business_qq: 业务QQ :return: driver ''' driver = webdriver.Chrome() driver.get('https://user.qzone.qq.com/{}/311'.format(business_qq)) # URL driver.implicitly_wait(10) # 隐示等待，为了等待充分加载好网址 driver.find_element_by_id('login_div') driver.switch_to.frame('login_frame') # 切到输入账号密码的frame driver.find_element_by_id('switcher_plogin').click() ##点击‘账号密码登录’ driver.find_element_by_id('u').clear() ##清空账号栏 driver.find_element_by_id('u').send_keys(login_qq) # 输入账号 driver.find_element_by_id('p').clear() # 清空密码栏 driver.find_element_by_id('p').send_keys(password) # 输入密码 driver.find_element_by_id('login_button').click() # 点击‘登录’ driver.switch_to.default_content() driver.implicitly_wait(10) time.sleep(5) try: driver.find_element_by_id('QM_OwnerInfo_Icon') return driver except: print('不能访问' business_qq) return None

说说

python爬取别人微信（Python爬取QQ）(3)

def get_shuoshuo(driver): page = 1 while True: # 下拉滚动条 for j in range(1, 5): driver.execute_script("window.scrollBy(0,5000)") time.sleep(2) # 切换 frame driver.switch_to.frame('app_canvas_frame') # 构建 BeautifulSoup 对象 bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk')) # 找到页面上的所有说说 pres = bs.find_all('pre', class_='content') for pre in pres: shuoshuo = pre.text tx = pre.parent.parent.find('a', class_="c_tx c_tx3 goDetail")['title'] print(tx ":" shuoshuo) # 页数判断 page = page 1 maxPage = bs.find('a', title='末页').text if int(maxPage) < page: break driver.find_element_by_link_text(u'下一页').click() # 回到主文档 driver.switch_to.default_content() # 等待页面加载 time.sleep(3)

相册

下载相册里面的照片需要 selenium 模块模拟鼠标一步步点击页面，先点击上方的相册按钮，进去就是多个相册的列表，下图是单个相册的超链接

python爬取别人微信（Python爬取QQ）(4)

在单个相册中点击照片，界面如下图

python爬取别人微信（Python爬取QQ）(5)

def get_photo(driver): # 照片下载路径 photo_path = "C:/Users/xxx/Desktop/photo/{}/{}.jpg" # 相册索引 photoIndex = 1 while True: # 回到主文档 driver.switch_to.default_content() # driver.switch_to.parent_frame() # 点击头部的相册按钮 driver.find_element_by_xpath('//*[@id="menuContainer"]/div/ul/li[3]/a').click() #等待加载 driver.implicitly_wait(10) time.sleep(3) # 切换 frame driver.switch_to.frame('app_canvas_frame') # 各个相册的超链接 a = driver.find_elements_by_class_name('album-cover') # 单个相册 a[photoIndex].click() driver.implicitly_wait(10) time.sleep(3) # 相册的第一张图 p = driver.find_elements_by_class_name('item-cover')[0] p.click() time.sleep(3) # 相册大图在父frame，切换到父frame driver.switch_to.parent_frame() # 循环相册中的照片 while True: # 照片url地址和名称 img = driver.find_element_by_id('js-img-disp') src = img.get_attribute('src').replace('&t=5', '') name = driver.find_element_by_id("js-photo-name").text # 下载 urlretrieve(src, photo_path.format(qq, name)) # 取下面的当前照片张数/总照片数量 counts = driver.find_element_by_xpath('//*[@id="js-ctn-infoBar"]/div/div[1]/span').text counts = counts.split('/') # 最后一张的时候退出照片浏览 if int(counts[0]) == int(counts[1]): # 右上角的 X 按钮 driver.find_element_by_xpath('//*[@id="js-viewer-main"]/div[1]/a').click() break # 点击下一张，网页加载慢，所以10次加载 for i in (1, 10): if driver.find_element_by_id('js-btn-nextPhoto'): n = driver.find_element_by_id('js-btn-nextPhoto') ActionChains(driver).click(n).perform() break else: time.sleep(5) # 相册数量比较，是否下载了全部的相册 photoIndex = photoIndex 1 if len(a) <= photoIndex: break

示例结果

python爬取别人微信（Python爬取QQ）(6)

总结

大家在看几年前的说说和照片是不是感觉满满的黑历史快要溢出屏幕了。时光荏苒、岁月如梭，愿一切安好

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

python爬取别人微信（Python爬取QQ）

猜您喜欢

什么样的湿地公园网红打卡地（8条主题消费路线发布）

如何高大上的介绍国际象棋（十分钟带你玩转国际象棋）

男性肾虚有哪些症状（男性肾虚主要症状是什么）

高水平的人每天都很有价值（尊重高水平人容易）

你不离不弃我必生死相依（你若不离不弃我必生死相依）

山东一地紧急寻人最新通告（兖州汶上紧急寻人）

按压瓶盖小妙招（生活中那些很难打开的东西）

热门推荐

排行榜