scrapy shell探索tushare接口结构

爬取网络信息时,可以先通过scrapy shell探索需要抓取的页面结构化信息,梳理出对应的xpath表达式,为后续整个爬虫项目打下基础。本文以tushare(上市公司基本信息)接口为例。

一、明确需要爬取的页面结构信息

首先,我们观察上市公司基本信息的页面特点:


上市公司基本信息页面

然后,梳理出想要爬取的信息特点:

目标结构信息

二、通过scrapy shell调试出对应的xpath表达式

进入scrapy shell环境进行调试scrapy shell https://tushare.pro/document/2?doc_id=112


目标信息对应的xpath表达式

https://www.jianshu.com/p/b82a0c8191ba

Python量化投资网携手4326手游为资深游戏玩家推荐:《关于龙族幻想的黑话,你知道几个?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
Python
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论