分类:Gensim

中文文本清洗、分词、训练词向量

中文文本在训练词向量的相关操作和使用的函数工具总结 只保留中文字符(数字、字母) 判断汉字、数字和字母的函数 #是否是汉语判读 def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00'...

6天前 21℃ 0评论 0喜欢

LSI(LSA)和gensim中的实现

LSI原理 通过SVD将文档与词的TF-IDF的矩阵进行分解。SVD分解后的三个矩阵是文档与主题,主题与词义,词义与词三个矩阵,通过三个矩阵的不同解释,可以实现在降低维度的基础上有意义的解释。 文档与主题矩阵可以实现文档相似度的计算。词义与词的矩阵可以实现词相似度的计算,同时可以...

6天前 17℃ 0评论 0喜欢

NLP.TM | 再看word2vector

再看word2vector NLP.TM似乎很久没有更新了哈哈哈,其实有些积累了,后面慢慢开始写。 word2vector是自然语言处理中非常非常经典的embedding,即词嵌入模型,主要完成的功能是将文字转化为可供计算的词向量,虽然目前已经被BERT等新型模型逐渐取代,但是在...

2周前 (07-01) 52℃ 0评论 0喜欢

《人民的名义》文本分析(相似度计算)

     因为最近是在一家IT公司实习,有接触到自然语言处理等方面的知识,在网上查找了一些博客,并简单运行代码。下面是一个代码的整理。有关《人民的名义》的一个人名的相似度的计算的一个复现,在该博客的基础上做了一些修改。 import jieba import jieba.anal...

3周前 (06-27) 53℃ 0喜欢

gensim训练词向量 – 微澜55

import使用到的库 #coding=utf8 import sys import jieba.posseg as pseg import jieba from gensim.models import Word2Vec from gensim.models.word2vec ...

3周前 (06-25) 67℃ 0喜欢

word2vec词向量模型

import time import gensim class EpochSaver(gensim.models.callbacks.CallbackAny2Vec):     ”’用于保存模型, 打印损失函数等等”’     de...

3周前 (06-24) 73℃ 0喜欢

Kaggle关于IMDB情感分类

过去了17天,按照学习计划来说,已经严重超时了。 主要的问题是在数据预处理部分。 Kaggle的IMDB情感分析任务其实很简单,train文件用于训练,test文件用于测试。 步骤 整合train和test(就是说所有语料库)生成词袋或词向量模型。也可以下载已有的word2ve...

3周前 (06-24) 75℃ 0喜欢