Method1:平均word-vector法 #
- 对求句子中所有单词词嵌入的平均值,然后计算两句子词嵌入之间的余弦相似性
参考 中文文本相似度计算
- 个人觉得,可以用Zipf 假定,对不同的单词向量做调权处理。这样也不用管什么stop words 之类的问题。权重嘛,-*log(p)
Methods2: 传统的TF-IDF计算文本相似度 #
- 优点包括: 1. 速度快 2.可以保存训练好的模型 3.用户多,代码成熟 4.可以训练词向量模型
Method3: Doc2vec法 #
- Doc2Vec实际上计算除了一个总体语义。总体语义都有了,这意味着很多。