从需求逻辑看 文本处理工具: #
- 抓取网页内容的工具。整理成为文本
- 提取关键词的工具
- 分析出主题下的细分主题
- 再构出完整的主题
- 提取关键句子/关键表达的工具,带得分排序
- ?计算内容相似度的工具
从信息论看 需要的工具 #
- 知识PR分析工具,能分析出知识的权重,依赖关系?
- 计算不同信息的差:word_vector 的cosine distance.
- 表达的相似性,BLEU,
潜在的实现算法 #
- TextRank 可以用于关键词抽取, 段落总结。投票算法选择最佳内容
- TD-IDF 算法,识别出高频,且针对性强的内容