2019-06-12 – Python量化投资
0°

2019-06-12

假设我们有如下数据集:


捕获.PNG

数据集中,第三列的数据取值要么是0,要么是1,如果我们将取值为 0 的数据在二维坐标系中用 蓝颜色 标记,取值为 1 的数据用 红颜色 标记,将数据在二维坐标系中进行可视化,或许可以找到数据之间的一些规律。进行标记后如下所示:

image
从上图中可以发现如下规律,红色的点大部分在左下角,蓝色的点在右上角。

这一波操作如何实现的呢?这里用到了 jupyter notebook、python、pandas 和 matplotlib

在 jupyter notebook 中的代码如下:

1、首先导入必须的类

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

2、从 cvs 中导入数据到 data 中

data = pd.read_csv("data.csv")

3、将第三列值为 0 的数据放入 data1 中,然后用红色标记出来

data1 = data[y == 0]
plt.scatter(data1['x1'], data1['x2'], c='r')

4、将第三列值为 1 的数据放入 data2 中,然后用蓝颜色标记出来

data2 = data[y == 1]
plt.scatter(data2['x1'], data2['x2'], c='b')

可以将 3 和 4 合并如下:

color = ['r', 'b']
for i in range(2):
    data1 = data[y == i]
    plt.scatter(data1['x1'], data1['x2'], c=color[i])

总结:
以上讨论的是两个分类的情况,如果有三个或者多个分类,也可以使用如上方法,通过用不同的颜色进行区分,将数据在二维坐标系中进行可视化,进而更直观地发现数据潜在的规律。

PS:
data.csv 数据下载地址

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!