文本相似度分析

Method1:平均word-vector法

  • 对求句子中所有单词词嵌入的平均值,然后计算两句子词嵌入之间的余弦相似性
    >参考 中文文本相似度计算
  • 个人觉得,可以用Zipf 假定,对不同的单词向量做调权处理。这样也不用管什么stop words 之类的问题。权重嘛,-*log(p)

Methods2: 传统的TF-IDF计算文本相似度

分析工具 gensim
* 优点包括: 1. 速度快 2.可以保存训练好的模型 3.用户多,代码成熟 4.可以训练词向量模型


Method3: Doc2vec法

  • Doc2Vec实际上计算除了一个总体语义。总体语义都有了,这意味着很多。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注