python3.6使用scrapyd与gerapy管理爬虫

正常的管控scrapy框架的爬虫是很简单的,当爬虫很少的时候是很好处理的,但是当爬虫量级达到上百个甚至更多的时候,一个一个的处理就很麻烦了,所以才有了scrapyd和gerapy。
环境:win10,python3.6, scrapy-1.7.4

1. 安装scrapyd与gerapy

python3 -m pip install scrapyd
python3 -m pip install scrapyd-client
python3 -m pip install gerapy

安装完成之后,在python36的Script目录下出现(如下图)


image.png

2. 运行scrapyd

在命令提示符[cmd]直接输入scrapyd,如果和python2有冲突,可直接切换到到python3的Scripts目录中运行scrapyd.exe


image.png

然后浏览器访问 http://127.0.0.1:6800即可


image.png

3. 管理scrapy

    1. 在scrapy项目的根目录找到scrapy.cfg(我用我的Appcrawler为例)


      image.png

    1. 修改scrapy.cfg


      image.png

      修改完成之后开始管理scrapy爬虫

    1. scrapy爬虫管理
      第一步:cmd进入项目的根目录
      检测爬虫个数


      image.png

      上传项目
      stauts为上传状态:ok or error
      project为项目名称
      spiders为爬虫个数


      image.png

      手动启动爬虫

      image.png

      正常启动爬虫之后在web界面中

      image.png

      说明爬虫启动正常。如果没有说明有错误,查看scrapyd按报的错误修改即可。

4. gerapy管理爬虫

  • 第一步
    启动gerapy
    在命令提示符中输入gerapy runsever即可
    在web端输入http://127.0.0.1:8000进入


    image.png

  • 第二步连接scrapyd


    image.png

第一:点击client—>create
第二:name随便填写,IP:为scrapyd的IP为127.0.0.1,PORT:端口为scrapyd的端口为6800
第三:点击创建即可。会弹出save successfully。

  • 第三步 管理爬虫
    点击client即可看到管理界面


    image.png

    点击调度,即可随意开启爬虫


    image.png

    以上就是简单的配置。
    scapyd也可与spiderkeeper对接
    spiderkeeper有定时启动爬虫,有数据库功能比gerapy更为强大,有空再写scrapyd与spiderkeeper和在linux部署管理平台。

    帮助到你的留个小心心。

https://www.jianshu.com/p/2451a165be20

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论