您的位置：首页 > 脚本大全 > > 正文

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

更多时间：2021-10-14 00:06:47 类别：脚本大全浏览量：995

python pyqt 教程

Python+PyQt5实现美剧爬虫可视工具的方法

美剧《权力的游戏》终于要开播最后一季了，作为马丁老爷子的忠实粉丝，为了能够看得懂第八季复杂庞大的剧情架构，本人想着将前几季再稳固一下，所以就上美剧天堂下载来看，可是每次都上去下载太麻烦了，于是干脆自己写个爬虫爬下来得了。

话不多说，先上图片。

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

本人才疏学浅，就写了个简单的可视化软件，关键是功能实现就行了嘛。

实现语言：python ，版本 3.7.1

实现思路：首先运用 python 工具爬取到数据再实现图形化软件。

由于这里只是实现简单的爬取数据，并没有牵扯到 cookie 之类的敏感信息，也没有设置代理，所以在选择 python 库上并没有引入 selenium 或者更高级的 scrapy 框架，只是拿到数据就可以了，没必要那么麻烦。

所以选择了 urllib 这个库，在 python 2.x 中应该是 urllib 和 urllib2 同时引入，由于本人选用的版本的 python 3.x ，在 python 3.x 中上面两个库已经被合并为 urllib 一个库，语法上有些不同，但语言这种东西都是大同小异的嘛。

先贴代码，缓和一下尴尬的气氛。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146 import urllib.request

from urllib import parse

from lxml import etree

import ssl

from pyqt5.qtwidgets import qapplication, qwidget, qlineedit, qtextedit, qvboxlayout, qpushbutton, qmessagebox

import sys

# 取消代理验证

ssl._create_default_https_context = ssl._create_unverified_context

class texteditmeiju(qwidget):

def __init__(self, parent=none):

super(texteditmeiju, self).__init__(parent)

# 定义窗口头部信息

self.setwindowtitle('美剧天堂')

# 定义窗口的初始大小

self.resize(500, 600)

# 创建单行文本框

self.textlineedit = qlineedit()

# 创建一个按钮

self.btnbutton = qpushbutton('确定')

# 创建多行文本框

self.textedit = qtextedit()

# 实例化垂直布局

layout = qvboxlayout()

# 相关控件添加到垂直布局中

layout.addwidget(self.textlineedit)

layout.addwidget(self.btnbutton)

layout.addwidget(self.textedit)

# 设置布局

self.setlayout(layout)

# 将按钮的点击信号与相关的槽函数进行绑定，点击即触发

self.btnbutton.clicked.connect(self.buttonclick)

# 点击确认按钮

def buttonclick(self):

# 爬取开始前提示一下

start = qmessagebox.information(

self, '提示', '是否开始爬取《' + self.textlineedit.text() + "》",

qmessagebox.ok | qmessagebox.no, qmessagebox.ok

)

# 确定爬取

if start == qmessagebox.ok:

self.page = 1

self.loadsearchpage(self.textlineedit.text(), self.page)

# 取消爬取

else:

pass

# 加载输入美剧名称后的页面

def loadsearchpage(self, name, page):

# 将文本转为 gb2312 编码格式

name = parse.quote(name.encode('gb2312'))

# 请求发送的 url 地址

url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1"

# 请求报头

headers = {"user-agent": "mozilla/5.0 (macintosh; intel mac os x 10_14_3) applewebkit/537.36 (khtml, like gecko) chrome/72.0.3626.121 safari/537.36"}

# 发送请求

request = urllib.request.request(url, headers=headers)

# 获取请求的 html 文档

html = urllib.request.urlopen(request).read()

# 对 html 文档进行解析

text = etree.html(html)

# xpath 获取想要的信息

pagetotal = text.xpath('//li[@class="page"]/span[1]/text()')

# 判断搜索内容是否有结果

if pagetotal:

self.loaddetailpage(pagetotal, text, headers)

# 搜索内容无结果

else:

self.infosearchnull()

# 加载点击搜索页面点击的本季页面

def loaddetailpage(self, pagetotal, text, headers):

# 取出搜索的结果一共多少页

pagetotal = pagetotal[0].split('/')[1].rstrip("页")

# 获取每一季的内容（剧名和链接）

node_list = text.xpath('//a[@class="b font_14"]')

items = {}

items['name'] = self.textlineedit.text()

# 循环获取每一季的内容

for node in node_list:

# 获取信息

title = node.xpath('@title')[0]

link = node.xpath('@href')[0]

items["title"] = title

# 通过获取的单季链接跳转到本季的详情页面

requestdetail = urllib.request.request("https://www.meijutt.com" + link, headers=headers)

htmldetail = urllib.request.urlopen(requestdetail).read()

textdetail = etree.html(htmldetail)

node_listdetail = textdetail.xpath('//li[@class="tabs-list current-tab"]//strong//a/@href')

self.writedetailpage(items, node_listdetail)

# 爬取完毕提示

if self.page == int(pagetotal):

self.infosearchdone()

else:

self.infosearchcontinue(pagetotal)

# 将数据显示到图形界面

def writedetailpage(self, items, node_listdetail):

for index, nodelink in enumerate(node_listdetail):

items["link"] = nodelink

# 写入图形界面

self.textedit.append(

"<li>"

"" + items['name'] + "" + "\n"

"" + items['title'] + "" + "\n"

"第" + str(index + 1) + "集" + "\n"

"下载链接：" + "\n"

"" + items['link'] + ""

""

"</li>"

)

# 搜索不到结果的提示信息

def infosearchnull(self):

qmessagebox.information(

self, '提示', '搜索结果不存在，请重新输入搜索内容',

qmessagebox.ok, qmessagebox.ok

)

# 爬取数据完毕的提示信息

def infosearchdone(self):

qmessagebox.information(

self, '提示', '爬取《' + self.textlineedit.text() + '》完毕',

qmessagebox.ok, qmessagebox.ok

)

# 多页情况下是否继续爬取的提示信息

def infosearchcontinue(self, pagetotal):

end = qmessagebox.information(

self, '提示', '爬取第' + str(self.page) + '页《' + self.textlineedit.text() + '》完毕，还有' + str(int(pagetotal) - self.page) + '页，是否继续爬取',

qmessagebox.ok | qmessagebox.no, qmessagebox.no

)

if end == qmessagebox.ok:

self.page += 1

self.loadsearchpage(self.textlineedit.text(), self.page)

else:

pass

if __name__ == '__main__':

app = qapplication(sys.argv)

win = texteditmeiju()

win.show()

sys.exit(app.exec_())

以上是实现功能的所有代码，可以运行 python 的小伙伴直接复制到本地运行即可。都说 python 是做爬虫最好的工具，写完之后发现确实是这样。

我们一点点分析代码：

1

2

3

4

5

6 import urllib.request

from urllib import parse

from lxml import etree

import ssl

from pyqt5.qtwidgets import qapplication, qwidget, qlineedit, qtextedit, qvboxlayout, qpushbutton, qmessagebox, qlabel

import sys

以上为我们引入的所需要的库，前 4 行是爬取美剧天堂官网所需要的库，后两个是实现图形化应用所需的库。

我们先来看一下如何爬取网站信息。

由于现在美剧天堂使用的是 https 协议，进入页面需要代理验证，为了不必要的麻烦，我们干脆取消代理验证，所以用到了 ssl 模块。

然后我们就可以正大光明的进入网站了：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

令人遗憾的是 url 链接为https://www.meijutt.com/search/index.asp，显然没有为我们提供任何有用的信息，当我们刷新页面时，如下图：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

当我们手动输入 ulr 链接https://www.meijutt.com/search/index.asp进行搜索时：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

很明显了，当我们在首页输入想看的美剧并搜索时网站将我们的请求表单信息隐藏了，并没有给到 url 链接里，但是本人可不想每次都从首页进行搜索再提交表单获取信息，很不爽，还好本人发现了一个更好的方法。如下图：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

在页面顶部有一个页面跳转的按钮，我们可以选择跳转的页码，当选择跳转页码后，页面变成了如下：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

url 链接已经改变了：https://www.meijutt.com/search/index.asp?page=&searchword=%c8%a8%c1%a6%b5%c4%d3%ce%cf%b7&searchtype=-1

我们再将 page 中动态添加为page=1，页面效果不变。

经过搜索多个不同的美剧的多次验证发现只有 page 和 searchword 这两个字段是改变的，其中 page 字段默认为 1 ，而其本人搜索了许多季数很长的美剧，比如《老友记》、《生活大爆炸》、《邪恶力量》，这些美剧也就一页，但仍有更长的美剧，比如《辛普森一家》是两页，《法律与秩序》是两页，这就要求我们对页数进行控制，但是需要特别注意的是如果随意搜索内容，比如在搜索框只搜索了一个 ”i“，整整搜出了219页，这要扒下来需要很长的时间，所以就需要对其搜索的页数进行控制。

我们再来看一下 searchword 字段，将 searchword 字段解码转成汉字：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

没错，正是我们想要的，万里长征终于实现了第一步。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22 # 加载输入美剧名称后的页面

def loadsearchpage(self, name, page):

# 将文本转为 gb2312 编码格式

name = parse.quote(name.encode('gb2312'))

# 请求发送的 url 地址

url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1"

# 请求报头

headers = {"user-agent": "mozilla/5.0 (macintosh; intel mac os x 10_14_3) applewebkit/537.36 (khtml, like gecko) chrome/72.0.3626.121 safari/537.36"}

# 发送请求

request = urllib.request.request(url, headers=headers)

# 获取请求的 html 文档

html = urllib.request.urlopen(request).read()

# 对 html 文档进行解析

text = etree.html(html)

# xpath 获取想要的信息

pagetotal = text.xpath('//li[@class="page"]/span[1]/text()')

# 判断搜索内容是否有结果

if pagetotal:

self.loaddetailpage(pagetotal, text, headers)

# 搜索内容无结果

else:

self.infosearchnull()

接下来我们只需要将输入的美剧名转化成 url 编码格式就可以了。如上代码，通过 urllib 库对搜索的网站进行操作。

其中我们还需要做判断，搜索结果是否存在，比如我们搜索行尸跑肉，结果不存在。

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

当搜索结果存在时：

python pyqt 教程（Python+PyQt5实现美剧爬虫可视工具的方法）

我们通过谷歌的 xpath 插件对页面内的 dom 进行搜索，发现我们要选取的 class 类名。

我们根据获取到的页数，找到所有页面里我们要搜索的信息：

# 加载点击搜索页面点击的本季页面

def loaddetailpage(self, pagetotal, text, headers):

# 取出搜索的结果一共多少页

pagetotal = pagetotal[0].split('/')[1

].rstrip(
 
  标签：Python pyqt5 爬虫可视工具

上一篇：mysql的sql语句优化5种方式（MySQL：五个常见优化SQL的技巧）

                	  
			  下一篇：html5发送文字特效（HTML5调用手机发短信和打电话功能）

   


  
      您可能感兴趣
				
					
  如何用python处理excel表格（零基础使用Python读写处理Excel表格的方法）
  python时间类的实现（Python日期时间Time模块实例详解）
  python列表精讲33节（Python列表知识应知应会）
  python把str转成list（python3 字符串/列表/元组str/list/tuple相互转换方法及join函数的使用）
  python怎么安装queue（python队列Queue的详解）
  python中求阶乘的代码（python 阶乘累加和的实例）
  scrapy框架爬取小说的正文内容（Scrapy框架爬取Boss直聘网Python职位信息的源码）
  pythonpandas数据类型（Python3.5 Pandas模块之Series用法实例分析）
  python3字符串格式化怎么操作（python3实现字符串操作的实例代码）
  python菜单栏教程（Python3.5实现的三级菜单功能示例）
  python一组数字求和（Python3数字求和的实例）
  python中如何清空列表数据（Python批量删除只保留最近几天table的代码实例）
  python多进程创建细节（Python实现多进程的四种方式）
  centos8配置python开发环境（CentOS6.9 Python环境配置python2.7、pip、virtualenv）
  怎么python爬取网页图片（详解Python静态网页爬取获取高清壁纸）
  pythonsvr时序预测（利用Python半自动化生成Nessus报告的方法）
8月23日11时16分将迎处暑，逐渐进入气象意义上的秋天（8月23日11时16分将迎处暑）
花不语 下 如果重来一次的话，你还会这么选择吗（花不语下如果重来一次的话）
城市记忆之上海 最难忘的是老弄堂里的市井味道（城市记忆之上海）
太鸡贼了，这老小区轻松搞定了停车问题（这老小区轻松搞定了停车问题）
太鸡贼了，这老小区轻松搞定了停车问题（这老小区轻松搞定了停车问题）
节日我在岗|警景相融 平安相伴（节日我在岗警景相融）
					
					
            
         
 


        
             

				 
    
        热门推荐
    
    
    
    
       git查看一共提交的代码（Git提交日志修改方法实例汇总）
用python画圣诞树送给女朋友（情人节快乐! python绘制漂亮玫瑰花）
react的动画实现（React实现动效弹窗组件）
python实现栈和队列（Python利用heapq实现一个优先级队列的方法）
docker安装教程图解（Docker在线、离线安装及其常用命令操作）
php运行模式图解（php策略模式简单示例分析区别于工厂模式）
MVC中报get_RazorKeywords()错误的解决方法
怎么查看云服务器的配置（云服务器配置参数如何选择）
dedecms如何更改主页模板（织梦dedecms sitemap路径修改方法）
php添加到数组的用法（详解PHP 7.4 中数组延展操作符语法知识点）    

    
   

    


  
   
		排行榜
	
	 
		
       1python编程ide工具（这6款Python IDE&amp;代码编辑器，你都用过吗？）
2python函数调用传递数组数据（python调用c++传递数组的实例）
3python判断对象是否是某一类型（Python判断对象是否相等及eq函数的讲解）
4python类中的数据封装（基于python生成器封装的协程类）
5pythonsvr时序预测（利用Python半自动化生成Nessus报告的方法）
6怎么python爬取网页图片（详解Python静态网页爬取获取高清壁纸）
7centos8配置python开发环境（CentOS6.9 Python环境配置python2.7、pip、virtualenv）
8python多进程创建细节（Python实现多进程的四种方式）
9python中如何清空列表数据（Python批量删除只保留最近几天table的代码实例）
		
	







  
	 
  
   



	







     
    
	
        首页
            编程学习
            Web前端
            数据库
            软件设计
            
 开心学习 ©2013-2021 保留所有权利