分类:Scrapy

Python爬虫001——相关概念

1.什么是爬虫? 写程序,然后去互联网上抓取数据的过程。 2.哪些语言可以实现爬虫? (1)php,可以做,号称世界上最优美的语言,但是多进程、多线程支持的不好 (2)java,可以做,并且做的相当不错,是python的主要竞争对手,但代码臃肿,重构成本大 (3)c、c++,可以...

21小时前 5℃ 0评论 0喜欢

Python快速开发分布式搜索引擎Scrapy精讲!

用命令创建自动爬虫文件 创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates:母版说明 Python资源共享群:484031800 basic 创建基础爬虫...

4天前 21℃ 0评论 0喜欢

被Jenkins坑过的日子

前言 环境 MacOS 场景 使用Python 抓取一个JS 动态渲染的页面,使用到了Scrapy、Scrapy-Splash 框架,运用了Doker 容器。 坑来了 No1 、Jenkins 里直接写Scrapy、Pip 等命令出现Command not found 错误. 案...

4天前 15℃ 0评论 0喜欢

Scrapy 分布式部署

1.在爬虫文件中的settings中添加如下字段 # scrapy-redis配置信息 # 调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "scrapy_redis.dupefilter...

5天前 16℃ 0评论 0喜欢