文本自动摘要算法

传统算法

  • lead-3. 打头的三句话。看起来百度在用
  • TexRank。 是和谷歌pagerank 很接近的实现算法
    > TextRank4ZH
  • 谷歌算法,摘取最熵值最大的连续片段。
  • LexRank,一种类似于TextRank的无监督方法。
    LexRank使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能的后处理步骤,确保为摘要选择的顶级句子彼此不太相似。
  • KL-Sum 一种启发性的最长公共子序列贪心匹配摘要算法
  • LSA,包括潜在语义分析,测试效果良好

实用的自动摘要工具包


基于神经网络和深度学习的摘要方案

  • 文本摘要简述
    生成式摘要面临的一些常见问题:但是简单的Seq2seq直接应用到摘要生成会有一些问题,比如重复生成、信息冗余,无法处理未登录词,关键信息丢失,可读性差等等。相对应的改进主要有以下几类:
  • 从16年~19年,摘要任务持续走热,提出的新模型也是不胜枚举。左右摘要任务性能的关键点到底在哪呢?ACL19这篇文章对此做了探讨。 Searching for Effective Neural Extractive Summarization: What Works and What’s Next

一些基于深度学习的自动摘要的SOTA

Textsum

2016 年,谷歌也开源了基于 TensorFlow的一个自动摘要模块 Textsum

UniLM ,微软,2020

BertSum, 2019 年的SOTA

matchsum,复旦大学,2020年的SOTA

PEGASUS,2020年google research 的SOTA,给出了超越人类水平的摘要性能!!!

总言之,PEGASUS 谷歌工具中穷人版的好东西。对它有挺高期望,也花了不少时间研究。但由于它苛刻的生成形式,并不觉得可以作为摘要生成来使用

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注