word2vec 课程(word2vec实战篇品读金庸)

word2vec 课程(word2vec实战篇品读金庸)(1)

“飞雪连天射白鹿,笑书神侠倚碧鸳”是金庸先生写过的十四本脍炙人口的武侠小说,作为一个在高三依旧每天阅读金庸小说的金迷,在刚学完word2vec的数学理论后,我迫不及待地想用这个工具来对金庸的小说做一个数据化的解读。

准备数据
  • 金庸的小说(txt格式)
  • names.txt(所有的人名)
  • bangs.txt(所有的帮派名称)
  • kungfu.txt(所有的武功名称)
测试数据

测试小说内容

word2vec 课程(word2vec实战篇品读金庸)(2)

word2vec 课程(word2vec实战篇品读金庸)(3)

测试人名

word2vec 课程(word2vec实战篇品读金庸)(4)

发现绝对主角

word2vec 课程(word2vec实战篇品读金庸)(5)

word2vec 课程(word2vec实战篇品读金庸)(6)

word2vec 课程(word2vec实战篇品读金庸)(7)

word2vec 课程(word2vec实战篇品读金庸)(8)

word2vec 课程(word2vec实战篇品读金庸)(9)

word2vec

在这里主要用到的包有gensim和jieba。

分词:使用jieba

word2vec 课程(word2vec实战篇品读金庸)(10)

word2vec训练:使用gensim

word2vec 课程(word2vec实战篇品读金庸)(11)

找相似的词:

word2vec 课程(word2vec实战篇品读金庸)(12)

word2vec 课程(word2vec实战篇品读金庸)(13)

word2vec 课程(word2vec实战篇品读金庸)(14)

找相似关系:

word2vec 课程(word2vec实战篇品读金庸)(15)

KMeans聚类(龙套、配角、主角):

word2vec 课程(word2vec实战篇品读金庸)(16)

层次聚类:

word2vec 课程(word2vec实战篇品读金庸)(17)

word2vec 课程(word2vec实战篇品读金庸)(18)

项目地址

https://github.com/Jarod-Luo/hello-world

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页