有曹子建七步成诗,今有DataCamp 8步成为数据科学家

20200523古有曹子建七步成诗,今有DataCamp 8步成为数据科学家


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled.png

这是国外一个非常厉害的数据科学学习平台DataCamp数据科学大牛Karlijn Willems写的一篇图文《8步成为数据科学家》。

我看到之后感觉,哇,大牛就是大牛。

8步,就8步,而且是8 easy 步。

当然,这里说的8步,不是说你用8天或者8周就可以完成,而是告诉你一个学习路径。只要你按照这个学习路径去学习,坚持学习,一定可以攀登到数据科学家的高峰的。

首先,什么是大数据科学家?

这个问题让我想起了,大学的系主任在给我们上的第一堂课时说的:

什么是地球物理学系?

地球物理学系就是半个地质系、半个物理系、半个计算机系、半个数学系毕业的。说白了就是一个跨学科的专业。

同样,数据科学家也是一个跨学科人才,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。需要掌握的知识有数学统计,编程能力,机器学习,研究能力等。

最主要的是什么呢?是将以上这些技能全部综合运用起来,以解决实际的问题,促进业务的发展,提升生产力,为社会创造价值的。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%201.png

从上图来看,数据科学家大部分是本科或者硕士学历(本科37%,硕士31%),当然,这个数据是几年之前的。从调查数据来看,有5%高中毕业的人也成为了数据科学家。这足以说明,只要你肯努力,即便是文凭很一般,也是可能成为顶级大牛的。更何况,对于很多人来说,无需成为数据科学家,只要会一些常规的数据分析方法与技能,就能找到一个合适的工作。

第1步:学好统计、数学和机器学习

数学和统计学是数据分析的最基础的内容,也是后续影响你发展路径的决定因素,一定要打好基础。但是机器学习这里只要了解个大概就可以了。

以下给出了一些学习的书目与资料,如果觉得很难的话,可以参考这篇文章的几本书:

【荐书】数据分析推荐书籍1——统计学


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%202.png

第2步:编程

编程能力早就已经作为大学生的基本能力之一,甚至现在的少儿编程也火速蔓延。

选择一种数据分析的编程语言,例如开源软件的R , Python语言等,或者商业软件的SAS, SPSS等。

很多同学在学习编程语言的时候,经常是按照如下的路径:从安装到放弃……所以:

入门者的正确打开方式:使用Anaconda安装Python


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%203.png

第3步:数据库

少量的数据可以使用Excel文件来存放,但是数据量大时就不行了。大部分公司的大部分数据都存放在数据库中,因此呢,数据库的操作你需要熟悉的,如关系数据库MySQL,非关系型数据库MongoDB等。

想要玩转Power BI,为什么一定要学会数据库?

7天学会SQL,朴实无华但并不枯燥

同样,也不要从安装到放弃啊:

手把手教你MySQL数据库安装-Windows版


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%204.png

第4步:学会数据清洗、可视化和报表制作

据统计,在大部分数据分析的工作中,有多达60%的时间都花在了数据清洗上了。所以数据清洗一定要选择高效的工具,如Python的pandas包、R语言的data.table和dply包、PowerQuery等工具。

而可视化可以用Python的matplotlib包、R的各种包、PowerBI等。

报表制作上,PPT技能是最基础的内容,PowerBI和Tableau等规模化报表工具,你值得拥有。

学习PowerBI内容,请关注本号,查看历史文章,干货满满。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%205.png

第5步:提升到大数据级别

当你开始处理海量规模的数据时,绝大多数的数据科学家要解决的问题,都无法在单机上完成,需要用分布式处理大数据集,使用的工具有Hadoop和Spark等。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%206.png

第6步:多操作、多实践,与数据科学家大牛多交流

实践是检验真理的唯一标准。你学习了那么多,一定要真正用在实践中区创造价值,哪怕是学习了别人的知识,自己再输出给其他人也行。

再就是遇到问题时,一定要请教大牛,其实他们都很乐于回答你的问题的。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%207.png

第7步:实习、项目实战、或者找一份工作

即便是学习了之后操练一下,你可能也就是有个大概的认识。但是一旦有项目或者工作需求,那么你学习过程中的疏漏与不足全都会暴露出来,这时候别怕,一定要再查漏补缺,提升自己,你会发现自己进步非常快。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%208.png

第8步:专业社区学习交流

数据分析的网站有:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers。

可以看这些数据科学大牛的博客:Hilary Mason, David Smith, Nate Silver, dj patil。

在这些专业社区,看看别人都是遇到什么样的问题,如何解决的,甚至你可以思考如何解决这些问题,去帮助别人,在社区内积攒口碑,你也会成为大牛的。


20200523%20DataCamp%208%20d0dcf274d3a64b5a9b1ef70f6215b4ca/Untitled%209.png
https://www.jianshu.com/p/a162421d1145

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
pandas
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论