scrapy爬虫原理(浅谈Scrapy网络爬虫框架的工作原理和数据采集)
scrapy爬虫原理
浅谈Scrapy网络爬虫框架的工作原理和数据采集今天小编给大家详细的讲解一下scrapy爬虫框架,希望对大家的学习有帮助。
1、scrapy爬虫框架
scrapy是一个使用python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。
scrapy使用了twisted异步网络库来处理网络通讯。整体架构大致如下图所示。
2、由上图可知scrapy爬虫框架主要由5个部分组成,分别是:scrapy engine(scrapy引擎),scheduler(调度器),downloader(下载器),spiders(蜘蛛),item pipeline(项目管道)。爬取过程是scrapy引擎发送请求,之后调度器把初始url交给下载器,然后下载器向服务器发送服务请求,得到响应后将下载的网页内容交与蜘蛛来处理,尔后蜘蛛会对网页进行详细的解析。蜘蛛分析的结果有两种:一种是得到新的url,之后再次请求调度器,开始进行新一轮的爬取,不断的重复上述过程;另一种是得到所需的数据,之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理,最后由pipeline输出到文件中,或者存入数据库等。
3、这五大组件及其中间件的功能如下:
1) scrapy引擎:控制整个系统的数据处理流程,触发事务处理流程,负责串联各个模块
2) scheduler(调度器):维护待爬取的url队列,当接受引擎发送的请求时,会从待爬取的url队列中取出下一个url返回给调度器。
3) downloader(下载器):向该网络服务器发送下载页面的请求,用于下载网页内容,并将网页内容交与蜘蛛去处理。
4) spiders(蜘蛛):制定要爬取的网站地址,选择所需数据内容,定义域名过滤规则和网页的解析规则等。
5) item pipeline(项目管道):处理由蜘蛛从网页中抽取的数据,主要任务是清洗、验证、过滤、去重和存储数据等。
6) 中间件(middlewares):中间件是处于scrapy引擎和scheduler,downloader,spiders之间的构件,主要是处理它们之间的请求及响应。
scrapy爬虫框架可以很方便的完成网上数据的采集工作,简单轻巧,使用起来非常方便。
4、 基于scrapy的网络爬虫设计与实现
在了解scrapy爬虫原理及框架的基础上,本节简要介绍scrapy爬虫框架的数据采集过程。
4.1 建立爬虫项目文件
基于scrapy爬虫框架,只需在命令行中输入“scrapy startproject article”命令,之后一个名为article的爬虫项目将自动创建。首先进入到article文件夹下,输入命令“cd article”,之后通过“dir”查看目录,也可以通过“tree /f”生成文件目录的树形结构,如下图所示,可以很清晰的看到scrapy创建命令生成的文件。
顶层的article文件夹是项目名,第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg,这个与项目同名的文件夹article是一个模块,所有的项目代码都在这个模块内添加,而scrapy.cfg文件是整个scrapy项目的配置文件。第三层中有5个文件和一个文件夹,其中__init__.py是个空文件,作用是将其上级目录变成一个模块;items.py是定义储对象的文件,决定爬取哪些项目;middlewares.py文件是中间件,一般不用进行修改,主要负责相关组件之间的请求与响应;pipelines.py是管道文件,决定爬取后的数据如何进行处理和存储;settings.py是项目的设置文件,设置项目管道数据的处理方法、爬虫频率、表名等;spiders文件夹中放置的是爬虫主体文件(用于实现爬虫逻辑)和一个__init__.py空文件。
4.2 之后开始进行网页结构与数据分析、修改items.py文件、编写hangyunspider.py文件、修改pipelines.py文件、修改settings.py文件,这些步骤的具体操作后期会文章专门展开,在此不再赘述。
4.3 执行爬虫程序
修改上述四个文件之后,在windows命令符窗口中输入cmd 命令进入到爬虫所在的路径,并执行“scrapy crawl article”命令,这样就可以运行爬虫程序了,最后保存数据到本地磁盘上。
5、 结束语
随着互联网信息的与日俱增,利用网络爬虫工具来获取所需信息必有用武之地。使用开源的scrapy爬虫框架,不仅可以实现对web上信息的高效、准确、自动的获取,还利于研究人员对采集到的数据进行后续的挖掘分析。
原文链接:http://blog.51cto.com/13389043/2348849
- python实现网络爬虫的步骤(Python实现的爬取小说爬虫功能示例)
- python爬虫怎么爬取vip资源(Python网络爬虫之爬取微博热搜)
- python爬虫爬取知乎(详解用python写网络爬虫-爬取新浪微博评论)
- python爬虫request方法介绍(详解Python3网络爬虫二:利用urllib.urlopen向有道翻译发送数据获得翻译结果)
- python网络爬虫案例实战(python爬取cnvd漏洞库信息的实例)
- scrapy爬虫原理(浅谈Scrapy网络爬虫框架的工作原理和数据采集)
- 百事大吉蓝底 绿底手机高清壁纸(绿底手机高清壁纸)
- 蓝底证件照怎么制作 证件照换底色 换尺寸快速搞定(蓝底证件照怎么制作)
- 你喜欢足球吗 足球如何点亮世界的(足球如何点亮世界的)
- 不可分鸽是什么梗(不可分鸽是什么梗)
- 古代的鸽子是爱情的象征,并非和平的使者(古代的鸽子是爱情的象征)
- 一课译词 放鸽子(一课译词放鸽子)
热门推荐
- mysql 多表连接查询(MySQL多表查询的具体实例)
- vue商城购物车数据(vue实现购物车全部功能的简单方法)
- vue的修饰符都有哪些(详解Vue的sync修饰符)
- php框架创建控制器代码(php连接sftp的作用以及实例代码)
- 循环查询sql server(SQL Server 树形表非循环递归查询的实例详解)
- dockerexec参数详解(docker安装pxc集群的详细教程)
- nginx负载均衡高怎么用(Nginx + consul + upsync 完成动态负载均衡的方法详解)
- 正则表达式中/i,/g,/ig,/gi,/m的含义
- MVC中BeginForm
- mysql死锁情况(MySQL kill不掉线程的原因)