scrapy 进阶使用

scrapy组件介绍

首先先来介绍一下scrapy的体系结构和组件。

1.scrapy引擎。顾名思义,它负责调用爬虫爬取页面并将数据交给管道来处理。
2.调度程序。调度程序从引擎获取请求,然后将这些请求交给相应的处理者来处理。
3.下载器。下载器负责获取web页面,然后将它们交给引擎来处理。
4.爬虫。这是我们要编写的部分,爬虫负责从页面抽取要处理的数据,然后交由管道来处理。
5.项目管道。爬虫抽取出来的数据,就要交给管道来处理,我们可以编写自己的管道来清洗、验证和持久化数据。
6.下载器中间件。下载器中间件在下载器和scrapy引擎之间工作,我们可以利用下载器中间件在将页面交给爬虫之前做一些事情。scrapy内置了一些下载器中间件,这些中间件将在后面介绍。
7.爬虫中间件。爬虫中间件可以让我们控制爬虫的回调等等。在后面会介绍一些内置的爬虫中间件。

下面是scrapy官网的结构图,可以帮助我们理解scrapy的体系。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
Python