文本相似度分析

Method1:平均word-vector法 #

  • 对求句子中所有单词词嵌入的平均值,然后计算两句子词嵌入之间的余弦相似性

参考 中文文本相似度计算

  • 个人觉得,可以用Zipf 假定,对不同的单词向量做调权处理。这样也不用管什么stop words 之类的问题。权重嘛,-*log(p)

Methods2: 传统的TF-IDF计算文本相似度 #

分析工具 gensim

  • 优点包括: 1. 速度快 2.可以保存训练好的模型 3.用户多,代码成熟 4.可以训练词向量模型

Method3: Doc2vec法 #

  • Doc2Vec实际上计算除了一个总体语义。总体语义都有了,这意味着很多。