python爬虫入门教程之一——前言 – Python量化投资

python爬虫入门教程之一——前言

  写在最前:本系列教程中我所用的工具和环境均基于Windows7/10 + Python3.x/Anaconda3+Spyder中文IDE编辑器+Google Chrome的环境,强烈建议安装anaconda,因为他包含丰富的无错的库文件,帮助我们节省大量的时间。

  之所以采用Python3,一方面是当前很多爬虫的教程都是基于python2,使用urllib等底层库,使用难度高,出错率也比较高。另一方面,python2.7版本将在明年(2020年)彻底退出历史舞台了,做什么事情要随大潮走不是么。

  希望本系列教程能够帮你轻松入门Python爬虫,同时在Python爬虫进阶系列教程中能够进一步帮助到你,轻松完成数据抓取任务。

爬虫的应用场景

相信大家多少都遇过需要抓取网页资讯的时候,也许是因为要做报告、或是出于兴趣想研究,需要相关参考资料。最简单的方法就是一笔一笔复制,然后贴到excel或是文字编辑器储存,再做后续的分析。

在工作、生活中有没有遇到这样的情况——

  • 工作所需,要从某些网站/网页上摘录一些内容,量特别大!!
  • 定期从一些网站更新摘录一些内容,机械、重复的工作简直是浪费生命!!
  • 想要获得一些公开的友商的一些竞品信息用来分析等等。

如果用官方一些的说法就是——

  • 收集商业智能数据
  • 关于您提供的产品或服务的市场调查
  • 全天候监控竞争对手的产品或解决方案
  • 收集用户行为数据以使您的产品更好地运行
  • 通过数据分析使您的产品提供更好的服务
  • … 等等……

这时候就需要网络爬虫来帮忙了!

什么是爬虫

  爬虫就是解决上述问题的好帮手。是一个可以自动化抓取网页、app内容的工具。再说简单点就是将你能看到的网页内容自动抓取下来的工具!

  应用最广泛的爬虫就是搜索引擎的网络蜘蛛,通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现,行为类似一个蜘蛛。蜘蛛在互联网上爬行,一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。

  对于一般的个人和企业而言,网络爬虫是也是获取数据的一个非常重要的途径。当下什么都讲大数据,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,对于中小微公司,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择。

Python爬虫的一些必备学习条件

  • 具备一定的Python基础:推荐的学习树为——《深入Python3》、《简明Python教程》、《Python核心编程》(如果需要一些科学计算内容的,可以看《Python科学计算》这本书的作者是Python全网最重要金融库pandas的原作者)
  • 具备简单的HTML/CSS/JavaScript的知识(非常简单即可)

上述一些必备知识中我将在随后的章节穿插讲解。

 

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论