[学习笔记]使用神经网络分析电影评论的正能量与负能量

背景介绍

这次主要将神经网络直接运用到具体的分析项目中,使用keras来判断用户在网络上编写的影评中包含的是正能量还是负能量。

数据集介绍

本次主要使用imdb(Internet Movie Database)数据集,数据集在这->imdb
这数据集包含了50000条偏向明显的评论,其中25000条作为训练集,25000作为测试集。label为pos(positive)和neg(negative)。
我们来看看这些数据

from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=100)
print(train_data[0])
print(train_labels[0])

这一份数据采用了一种神奇的结构,即所谓单词向量,这份数据对应一份单词频率表,这份表的数据结构如图所示


频率单词表

其中的数字既代表单词出现的频率,第一个数字1,即代表频率出现排名第一的单词;对应表下载;

其中做的标记中,分为1,0两种,1代表正能量,0代表负能量

让我们来看看这段影评长什么样。


word_index = imdb.get_word_index()
#我们要把表中的对应关系反转一下,变成key是频率,value是单词
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in train_data[0]])
print(decoded_review)


image.png

在train_data所包含的数值中,数值1,2,3对应的不是单词,而用来表示特殊含义,1表示“填充”,2表示”文本起始“,
3表示”未知“,因此当我们从trai
n_data中读到的数值是1,2,3时,我们要忽略它,从4开始才对应单词,如果数值是4,
那么它表示频率出现最高的单词is


import numpy as np
def vectorize_sequences(sequences, dimension=10000):
 
    results = np.zeros((len(sequences),dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

以上函数为的是把每个评论转换成一个矩阵,一条评论对应一个矩阵,矩阵的行对应单词数量,矩阵的列长度是一万,代表一万个单词数量,这一万个数一开始全为0,将出现的词置为1.从头到底进行排序,接下来为了方便运算,我们将其转换成浮点数。

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')
接下来我们开始构建神经网络,我们构建一个四层的神经网络。第一层输入有10000个结点。第二层,第三层有16个节点,第四层有一个节点,输出一个概率值。
from keras import models
from keras import layers
model = models.Sequential()
#构建第一层和第二层网络,第一层有10000个节点,第二层有16个节点
#Dense的意思是,第一层每个节点都与第二层的所有节点相连接
#relu 对应的函数是relu(x) = max(0, x),相当于神经元函数
model.add(layers.Dense(32, activation='relu', input_shape=(10000,)))
#第三层有16个神经元,第二层每个节点与第三层每个节点都相互连接
model.add(layers.Dense(32, activation='relu'))
#第四层只有一个节点,输出一个0-1之间的概率值
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

optimizer参数指定的是如何优化链路权重,事实上各种优化方法跟我们前面讲的梯度下降法差不多,只不过在存在一些微小的变化,特别是在更新链路权值时,会做一些改动,但算法主体还是梯度下降法。当我们的网络用来将数据区分成两种类型时,损失函数最好使用,输出是两种时,binary_crossentroy,它的表达式如下:
Hy′(y):=−∑i(y′ilog(y[i])+(1−y′[i])log(1−y[i]))
其中y[i]对应的是训练数据提供的结果,y'[i]是我们网络计算所得的结果。metrics用于记录网络的改进效率,我们暂时用不上。接着我们把训练数据分成两部分,一部分用于训练网络,一部分用于检验网络的改进情况:

x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[: 10000]
partial_y_train = y_train[10000:]
history = model.fit(partial_x_train, partial_y_train, epochs=20, batch_size=512, 
                    validation_data = (x_val, y_val))
训练数据总共有60000条,我们把最前一万条作为校验数据,用来检测网络是否优化到合适的程度,然后我们把数据从第一万条开始作为训练网络来用,把数据分割好后,调用fit函数就可以开始训练过程,上面代码运行后结果如下:
import matplotlib.pyplot as plt
acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
#绘制训练数据识别准确度曲线
plt.plot(epochs, loss, 'bo', label='Trainning loss')
#绘制校验数据识别的准确度曲线
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Trainning and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()


image.png

我们看上面图示能发现一个问题,随着迭代次数的增加,网络对训练数据识别的准确度越来越高,也就是loss越来越低,然后校验数据的识别准确的却越来越低,这种现象叫“过度拟合”,这意味着训练的次数并不是越多越好,而是会“过犹不及”,有时候训练迭代次数多了反而导致效果下降。从上图我们看到,大概在第4个epoch的时候,校验数据的识别错误率开始上升,因此我们将前面的代码修改,把参数epochs修改成4才能达到最佳效果。 训练好网络后,我们就可以用它来识别新数据,我们把测试数据放入网络进行识别,代码如下:

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=2, batch_size=512)
results = model.evaluate(x_test, y_test)
![image.png](https://upload-images.jianshu.io/upload_images/16487280-4a050e3a67ac79a7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

注:本文为望月从良先生深度学习课程的学习笔记,课程地址:https://study.163.com/provider-search?keyword=Coding%E8%BF%AA%E6%96%AF%E5%B0%BC

你或许想:《去原作者写文章的地方

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论