平台需要的工具分析

从需求逻辑看 文本处理工具: #

  • 抓取网页内容的工具。整理成为文本
  • 提取关键词的工具
    • 分析出主题下的细分主题
    • 再构出完整的主题
  • 提取关键句子/关键表达的工具,带得分排序
  • ?计算内容相似度的工具

从信息论看 需要的工具 #

  • 知识PR分析工具,能分析出知识的权重,依赖关系?
  • 计算不同信息的差:word_vector 的cosine distance.
  • 表达的相似性,BLEU,

潜在的实现算法 #

  • TextRank 可以用于关键词抽取, 段落总结。投票算法选择最佳内容
  • TD-IDF 算法,识别出高频,且针对性强的内容