官媒点评流浪地球（霸榜知乎谴责豆瓣）

喜旧念他 2023-02-13 22:06:32

收藏赞分享

官媒点评流浪地球（霸榜知乎谴责豆瓣）(1)

大数据文摘投稿作品

作者：丁卓非

《流浪地球》又火了一把！

说实话，这次火的有点突然。原因也很简单：一些群众不服《流浪地球》在豆瓣评分，纷纷跑到了App Store给豆瓣差评，同时安卓端也被攻陷。

这次豆瓣可谓受到了知乎和微博的两路夹击，两个平台的人民大众对豆瓣进行了“道德”的批判和无情的鞭挞。

官媒点评流浪地球（霸榜知乎谴责豆瓣）(2)

豆瓣事件霸榜知乎

暂且不论是否有“黑幕”交易，此次争端的根本在于《流浪地球》这部电影到底好不好看。

文摘菌小规模的获取了豆瓣的影评数据，让我们来看看用户对《流浪地球》到底如何评价。

数据的获取

影评数据来源于豆瓣。但是豆瓣的反爬机制实在精致，大量爬取数据还会有法律风险，所以就小规模获取了600条数据。高分评价、中等评价和低分评价，各自占了200条，对各个分数段的评价做到平等对待。

代码链接：

github/zmddzf/wandering_earth

数据到手了，我们应该怎么分析这些影评数据呢？按照惯例，词云图肯定不能少。为了对每一分数段的影评数据进行深入分析，了解大家的态度，就需要绘制三张词云图。

词云图虽好，但是能够获得的信息还是和有限的，那接下来就要考虑一些其他的黑科技了，毕竟是对一部科幻作品进行分析，手段也要科幻一点。想了半天，决定使用LDA(Latent Dirichlet Allocation)文档主题生成模型，去对这些影评数据进行分析。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。影评虽然不多，但是用起来也不是不行。通过LDA提取topic，我们就可以根据关键词对这些主题进行提炼，能够把三个分数段的影评很好的聚集起来。

词云图分析

官媒点评流浪地球（霸榜知乎谴责豆瓣）(3)

让我们先来看一下高分评价的词云图，这里展示的词是top100的高频词汇。“国产”、“好莱坞”、“刘慈欣”、“原著”、“特效”等词喜上榜，可见好评人士认为这部改编自刘慈欣原著的国产电影能够媲美好莱坞大片的水平。

“硬核”、“亲情”也值得注意，硬核科幻加上情感元素，也是好评人士好评的原因。“鼓励”一词体现了好评人士对国产科幻电影的期望，可能潜藏着对片中bug的宽容。

官媒点评流浪地球（霸榜知乎谴责豆瓣）(4)

中评认识相对严格，这些词汇可以被概括维以下几点：1.对吴京的不满；2.对剧情故事人物尴尬的不满；3.对原著改编的不满。这三大不满，可能是这些人给与中评的原因。这几个原因是分可能有些主观。

官媒点评流浪地球（霸榜知乎谴责豆瓣）(5)

差评词云图中的“台词”、“演技”、“煽情”、“吴京”、“价值观”、“尴尬”等词让人深思。给了差评的观众可能是从专业的严格的视角对这部片子进行了技术层面的剖析得出了负责的评论，也可能是因为对吴京的偏见造成了低分，也可能是因为价值观的不服和做出的差评。

LDA主题分析

官媒点评流浪地球（霸榜知乎谴责豆瓣）(6)

这张图是LDA分析出来的结果，先来介绍一下这张图表示的意思。右边的这张图，每个气泡表示一个主题，气泡的大小代表主题出现的频率，气泡之间的距离代表每个主题之间的接近性，距离越近主题越相似。右上方的lambda表示词语和主题的相关性，越接近1说明该词语出现的越频繁，越接近0说明越特殊，我在后面的分析中选择lambda为0.6，取一个折中值进行分析。

官媒点评流浪地球（霸榜知乎谴责豆瓣）(7)