数据描述性分析日常应用

阿里云2000元红包!本站用户参与享受九折优惠!

目前客户数据的处理步骤是

1、emedit打开csv数据,检查数据格式字段是否有问题并进行修复处理,该环节尚未发现好的处理办法,以人工修复数据格式为主。CSV字段问题不修复会导致读取错误或者行列不对期等各种问题。因此除大部分数据已经发现规律修复比较快速包括单双引号,多逗号分隔,还有一些很难处理的回车,文件过大时错误回车很难发现,10万行以上肉眼识别速度很慢,一般靠readcsv报错识别定位行后进行处理

2、由于综合数据表都比较大,普遍用到chunksize参数,读取速度比一次性读取确实快。曾经还用过Modin组件,但由于频繁遇到unicode类问题和函数调用问题,就直接放弃了。单Modin确实加载速度可以比chunksize形式还要快。

3、数据读取过程中为了快速获取有效数据,一般会在遍历文件数据时,直接对数据块进行处理,包括匹配保留有效行、新增固定计算字段,如统计日、周、月、季度参数

4、开始对数据进行日常统计检查,常用的包括 数据采集及下发时间的间隔差,以间隔差计算延迟分布,常规记录中位数、四分位数,极值,极差。极小值基本在10-30秒,极大值是报告重点,普遍问题数据的极大值会大于24小时。

5、根据数据源的车型进行分类统计,并绘制每个车型的周期分布图后更新月报

6、目前发现的快速描述性分析库 pandas_profiling完成基本描述还是能用的,实测300万(2个月总数据)进行分析会造成延迟响应假死等情况,基于硬件配置i5 4核+32G内存+WSL OpenSuse64bit运算。经过分析后的数据,对于客户常用的若干主要指标可以用来直接填表

7、由于客户统计维度对缺失数据容错较高,因此对于此类数据没有进行修复。

https://www.jianshu.com/p/de38d302aefe

Python量化投资网携手4326手游为资深游戏玩家推荐:《《一零计划》:内有礼包】大版本更新前瞻第二弹!

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
Matplotlib
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论