抽象文本摘要任务中的拒绝学习

Feb, 2023

Learning with Rejection for Abstractive Text Summarization

Meng Cao, Yue Dong, Jingyi He, Jackie Chi Kit Cheung

TL;DR本研究提出一种基于拒绝学习的训练目标和一种正则化的解码目标，以提高摘要文本的真实性和抽象性。与五种基准模型相比，我们的方法在自动和人工评估中显著提高了生成的摘要文本的真实性。

Abstract

State-of-the-art abstractive summarization systems frequently hallucinate content that is not supported by the source document, mainly due to noise in the training dataset. Existing methods opt to drop the noisy samples or tokens from the training set entirely, reducing the effective t

abstractive summarization training objective rejection learning regularized decoding objective factuality

发现论文，激发创造

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020

文本摘要中的抽象化改进

提出使用上下文相关网络和预训练的语言模型来提高抽象文本摘要的生成水平和使用新颖度度量来优化生成的摘要，从而实现比现有方法更高水平的摘要生成。

Aug, 2018

无监督舆情摘要生成与加噪声去噪声技术

本文介绍了一种基于🈚️ground truth summaries 的情况下，利用文档创建合成数据集、引入多种噪声生成函数以及学习生成原始评论的摘要模型的方法，该方法比抽取式和生成式基线模型都有更好的效果。

Apr, 2020

通过对比候选生成和选择提高抽象摘要的忠实度

通过对替身候选生成和选择的研究，我们提出了一个模型无关的后处理技术来修正当前神经抽象摘要生成模型中常见的不忠于原始内容的摘要幻觉现象，我们学习了一个判别式修正模型并证明，通过替代抽象式中的具名实体和数量标识来代替同源文本中语义相似类型的实体可以有效识别和修正这些不符合原文本实质的幻觉，希望此方法可以为未来的神经抽象摘要生成方向的研究提供新的思路。

Apr, 2021

抽象文本摘要的实体级事实一致性

提出了一种新的度量生成摘要与原文事实一致性的方法，并展示了通过简单的过滤训练数据可减少实体幻觉问题。此外，还提出了一个摘要值得关注的实体分类任务及联合实体和摘要生成方法，并在实体层面的指标上得到了进一步的改进。

Feb, 2021

文本摘要模型的训练动态

本文分析生成模型的训练动态，特别是聚焦于总结的方面，并研究了不同阶段的训练过程中模型学到的东西，通过简单的训练修正可以实现不同目标，比如提高事实性和提高抽象程度。

Oct, 2021

CLIFF: 用对比学习提高摘要的忠实度和事实性

通过对比学习和负样本生成，提出一个能够生成与给定文章相符的抽象摘要的方法，并使用 QA 验证和人类评判证明其能够更准确地反映事实。

Sep, 2021

互信息在抽象摘要中减轻幻觉

本文发现了一个简单的标准 —— 模型不确定性高 —— 会导致生成更多的错误内容（即幻觉），并提出了一种解码策略，该策略在存在不确定性时优化源和目标单词的点间互信息，从而减少幻觉的出现，并在 XSum 数据集上进行了实验证明，该方法降低了幻觉的概率，同时保持了黄色和 BertS 得分。

Oct, 2022

不知道的不要说：通过约束束搜索提升概括性摘要的一致性

本研究分析了抽象摘要系统中的幻觉现象，发现是因为模型使用不受原文支持的目标摘要进行训练。基于这一发现，提出了 PINOCCHIO 新解码方法来提高 Transformer-based 抽象摘要器的一致性，并在实验中表现良好。

Mar, 2022

通过对比学习缓解摘要文本生成中的曝光偏差

提出使用对比学习来减少低质量文摘的可能性，同时增加黄金文摘的可能性，以解决 Encoder-decoder 模型在训练和推理中的偏差问题，并在实验中证明这种方法有效地提高了最先进模型在不同数据集上的性能。

Aug, 2021