frontera——最好的scrapy-分布式框架

注意:Frontera对Windows的兼容性不好,Windows开发者慎用

因为公司项目需求,最近在学习 portia

啥是 portia 呢?
portia 是 scrapinghub 团队开源的可视化爬虫框架。有了这个框架,一个不会编程的人直接通过鼠标点击就可以实现网页采集。他们公司已经有了成熟的产品scrapinghub, 功能很强大,可以尝试一下。

在调研 portia 的时候,偶然阅读 big data at scrapinghub 这篇文章,了解到了 frontena 。frontera 同样是 scrapinghub 团队的作品——一个功能强大、可扩展性好、已经在生产环境中得到验证、开源的分布式爬虫框架。有种相见恨晚的感觉。

为什么说是最好的scrapy 分布式框架???

通过搜索我发现,scrapy 的分布式框架除了 frontera 还有 scrapy-cluster scrapy-redis ,综合对比以后发现 frontera 要优于另外两个。

它支持这些强大的功能:
  1. 面向在线处理,
  1. 分布式爬虫和后端架构,
  2. 可定制抓取策略,
  3. Scrapy易于集成,
  4. 集成 SQLAlchemy 支持关系型数据库(Mysql, PostgreSQL, sqlite 等等), 集成 HBase 非常好得支持键值对数据库,
  5. 使用 ZeroMQ and Kafka 为分布式爬虫实现消息总线,
  6. 使用 Graph Manager 创建伪站点地图和模拟抓取,进行精确抓取逻辑调优。
  7. 透明的传输层概念(message bus)和通信协议,
  8. 纯 Python 实现 。
  9. 支持 Python 3 。
而且社区活跃度很高

看图说话。


frontera github.png

而且在生产环境得到验证

看图说话。


frontera 生产环境

功能这么强大,有没有心动的感觉,感觉用起来吧。

https://www.jianshu.com/p/77367280de90

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
NumPy
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论