细化小作业(10号之前做好,附在自荐信上面)

媒体数据运用

1.做一个词云(基于冠状病毒)


这是figshare上面看到的

这4张图是推特、纽约时报两天不同内容的词频

我可以做一个新媒体和传统媒体(微博里面的央视新闻和长江云)

不过还是挺迷茫的,因为这个词云不难做,前提是把微博数据爬出来,然后对文字进行清洗,然后制作词云

还要做一个数据分析——爬虫——文本分析——数据分析——数据可视化

《媒体大数据挖掘与案例实战》

一、文本挖掘案例之新闻聚类(用户细分)

搜狗新闻实验室的新闻语料(八个类别)

1.读取数据 import jieba 、pandas、numpy、re、os

2.预处理 中文分词

3.基于TF-idf矩阵的聚类(aklearn TFidfvectorizer)

3.1转换tf-idf矩阵

3.2降维

3.3聚类(轮廓系数、metrics、不同聚类方法示意图 scikit-learn、欧几里得、余弦聚类)

4.基于word2vec的聚类(词嵌入、词向量嵌入法 、建立K-means模型)

二、文本挖掘案例之图书评论情感分类

import jieba 、pandas、re、os(朴素贝斯算法、分离算法)

1.读取数据(两个文件夹:积极-消极)

2.预处理(分词、token、去标点符号)

3.使用tf-idf矩阵作为输入

转换tf-idf矩阵

数据降维(0.8方差解释度)

划分训练集和测试集

建立朴素贝叶斯预测模型(召回率)

输入新数据验证分类

4.使用Doc2Vec文档向量作为输入

训练文档向量(50维向量)

划分训练集和测试集

建立随机森林分类器

新数据的分类

三、数据可视化


案例

水晶易表

微博传播数据路径图

春节年三十晚上短信热度

可视化工具

1.Echart

2.D3js.org

3.数据可视化工具目录

4.datavizproject.com

5.plotdb.com

https://www.jianshu.com/p/86442d49d2e4

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论