数据科学pandas库自己常用方法备忘_持续更新

前言

Python的pandas库常用的一些方法,和各种整合说各种pandas的函数、操作的教程不同之处在于,这个备忘更立足于自己遇到的问题,自己高频使用但是还没能用好掌握的方法和解决方案;主要是自己不会或不熟的,所以也不是pandas库的数据科学高频操作方法集合;这个备忘也是希望自己能够更快掌握这些解决方案。

数据操作

更改列的顺序_只输出特定列

s_idx=['a','b','c']
df=df.loc[:,s_idx] #更改列的顺序,只保存特定的列
ncols={'_id':'用户id','nick':'昵称'}
df.rename(columns=ncols, inplace=True) #更改列的名称
#不需要配置所有列的键值,例如df.columns有_id,nick,city三个列名,上面语句不影响city这个列名,city也仍然会保留

数据透视表

透视表:value_count 没有去重;去重,value_sum;

https://www.jianshu.com/p/a46b214b70c0

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论