标签:gensim

Gensim

中文文本清洗、分词、训练词向量

中文文本在训练词向量的相关操作和使用的函数工具总结 只保留中文字符(数字、字母) 判断汉字、数字和字母的函数 #是否是汉语判读 def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00'...

2周前 (07-10) 40℃ 0评论 0喜欢

Gensim

LSI(LSA)和gensim中的实现

LSI原理 通过SVD将文档与词的TF-IDF的矩阵进行分解。SVD分解后的三个矩阵是文档与主题,主题与词义,词义与词三个矩阵,通过三个矩阵的不同解释,可以实现在降低维度的基础上有意义的解释。 文档与主题矩阵可以实现文档相似度的计算。词义与词的矩阵可以实现词相似度的计算,同时可以...

2周前 (07-10) 37℃ 0评论 0喜欢

Gensim

NLP.TM | 再看word2vector

再看word2vector NLP.TM似乎很久没有更新了哈哈哈,其实有些积累了,后面慢慢开始写。 word2vector是自然语言处理中非常非常经典的embedding,即词嵌入模型,主要完成的功能是将文字转化为可供计算的词向量,虽然目前已经被BERT等新型模型逐渐取代,但是在...

3周前 (07-01) 63℃ 0评论 0喜欢

Gensim

《人民的名义》文本分析(相似度计算)

     因为最近是在一家IT公司实习,有接触到自然语言处理等方面的知识,在网上查找了一些博客,并简单运行代码。下面是一个代码的整理。有关《人民的名义》的一个人名的相似度的计算的一个复现,在该博客的基础上做了一些修改。 import jieba import jieba.anal...

3周前 (06-27) 68℃ 0喜欢

Gensim

word2vec词向量模型

import time import gensim class EpochSaver(gensim.models.callbacks.CallbackAny2Vec):     ”’用于保存模型, 打印损失函数等等”’     de...

4周前 (06-24) 99℃ 0喜欢

Gensim

Kaggle关于IMDB情感分类

过去了17天,按照学习计划来说,已经严重超时了。 主要的问题是在数据预处理部分。 Kaggle的IMDB情感分析任务其实很简单,train文件用于训练,test文件用于测试。 步骤 整合train和test(就是说所有语料库)生成词袋或词向量模型。也可以下载已有的word2ve...

4周前 (06-24) 90℃ 0喜欢