Pyspark实战指南

开始时间: 2019-11-26 预计时间7天。
作者:托马兹[美]

本书常用下载地址:
1.RDD章节文件下载:http://tomdrabas.com/data/VS14MORT.txt.gz
2.代码github地址:https://github.com/drabastomek/learningPySpark

1. 基本概念和RDD

pyspark中两个重要的概念是RDD和DataFrame,它俩都是分布在集群的节点中的不可变的数据集合(Pyspark还不支持dataset),两者的区别是,Dataframe是以命名列的方式组织数据的(类似pandas),而RDD的每一行都是一个string。

https://www.jianshu.com/p/baf1e08e5c05

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论