传统算法 #
- lead-3. 打头的三句话。看起来百度在用
- TexRank。 是和谷歌pagerank 很接近的实现算法
- 谷歌算法,摘取最熵值最大的连续片段。
- LexRank,一种类似于TextRank的无监督方法。 LexRank使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能的后处理步骤,确保为摘要选择的顶级句子彼此不太相似。
- KL-Sum 一种启发性的最长公共子序列贪心匹配摘要算法
- LSA,包括潜在语义分析,测试效果良好
实用的自动摘要工具包 #
- sumy 是github上最受欢迎的工具包。以上这些方法开箱可用,细节见 LSA,LexRank和TexRank,SumBasic,KL-Sum
- nlg-yongzhuo ,中文文本生成,同样包含许多传统算法,未能成功安装
基于神经网络和深度学习的摘要方案 #
- 文本摘要简述 生成式摘要面临的一些常见问题:但是简单的Seq2seq直接应用到摘要生成会有一些问题,比如重复生成、信息冗余,无法处理未登录词,关键信息丢失,可读性差等等。相对应的改进主要有以下几类:
- 从16年~19年,摘要任务持续走热,提出的新模型也是不胜枚举。左右摘要任务性能的关键点到底在哪呢?ACL19这篇文章对此做了探讨。 Searching for Effective Neural Extractive Summarization: What Works and What’s Next
一些基于深度学习的自动摘要的SOTA #
Textsum #
2016 年,谷歌也开源了基于 TensorFlow的一个自动摘要模块 Textsum
UniLM ,微软,2020 #
BertSum, 2019 年的SOTA #
matchsum,复旦大学,2020年的SOTA #
PEGASUS,2020年google research 的SOTA,给出了超越人类水平的摘要性能!!! #
总言之,PEGASUS 谷歌工具中穷人版的好东西。对它有挺高期望,也花了不少时间研究。但由于它苛刻的生成形式,并不觉得可以作为摘要生成来使用 #
2021 - 04 -01 文本摘要 #
2021-08-21 22:27:32 星期六 超级高效,好用的文本摘要算法 https://blog.csdn.net/malefactor/article/details/51264244