01_数据 – Python量化投资

01_数据

数据获取:

  1. benchmark是一个行业的基准(数据库,论文,源码,结果)
  2. 优秀论文,通常实验阶段都会介绍它所使用的数据集,公开数据集可以下载。申请数据集的时候,做好使用学校的邮箱。
  3. 论坛或者交流社区,比如thinkface
  4. 数据的规模 越大越好,今天的数据量4W多,最好2W。

搜索:
二分类数据,第一类人脸,第二类非人脸
人脸数据:路径/xxx.jpg 60,80,280,320
非人脸数据:只要不是人脸都是可以的

对于正样本:裁剪的操作,根据标注的坐标把人脸裁剪出来。可以使用opencv工具,制作人脸数据。要检查数据有没有问题。
对于负样本:进行一个随机裁剪,IOU这个比例(重叠的比例)在原始的数据当中,IOU<0.3认为是一个负样本,最好是拿没有人脸数据的当做负样本。

制作LMDB数据源(其实是caffe支持的非常常用的分类数据源)
写两个TXT文档文件

train.txt
/0/xxx.jpg 0
/1/xxx.jpg 1
val.txt
/xxx.jpg 0
/xxx.jpg 1

制作LMDB数据源,用caffe提供的脚本文件:
前几行改成自己的安装目录
要进行一个resize操作,比如AlEXNET或者VGG通常都是给它resize 227*227,通常使用VGG
sh LMDB脚步文件.sh 文件是很大的。

https://www.jianshu.com/p/482b1bd3fed9

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论