文本相似度分析 | To Build, I Live

文本相似度分析

Method1：平均word-vector法 #

对求句子中所有单词词嵌入的平均值，然后计算两句子词嵌入之间的余弦相似性

参考中文文本相似度计算

个人觉得，可以用Zipf 假定，对不同的单词向量做调权处理。这样也不用管什么stop words 之类的问题。权重嘛，-*log(p)

Methods2: 传统的TF-IDF计算文本相似度 #

分析工具 gensim
优点包括： 1. 速度快 2.可以保存训练好的模型 3.用户多，代码成熟 4.可以训练词向量模型

Method3: Doc2vec法 #

Doc2Vec实际上计算除了一个总体语义。总体语义都有了，这意味着很多。