主题摘要中的细粒度事实注释及建模

ACLApr, 2021

主题摘要中的细粒度事实注释及建模

Annotating and Modeling Fine-grained Factuality in Summarization

Tanya Goyal, Greg Durrett

TL;DR研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Abstract

Recent pre-trained abstractive summarization systems have started to achieve credible performance, but a major barrier to their use in practice is their propensity to output summaries that are not faithful to the input and that contain →

abstractive summarization factuality annotated datasets training models factual errors

发现论文，激发创造

理解摘要中的事实错误：错误，摘要生成器，数据集和错误检测器

研究了摘要系统在制作摘要时出现的事实性错误，并比较了不同技术和数据集上的效果，并取得了一些新的结果：使用预训练模型的现代数据集显示结果显著不同于使用 pre-Transformer 的旧数据集，没有一种技术在所有情况下都是优秀的。

May, 2022

使用 FRANK 来理解抽象摘要中的事实性：一个事实度量的基准

该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释，并使用它来识别各种类别的事实错误的比例，并基准事实度度量标准，显示它们与人类判断的相关性以及它们的特定优点和缺点

Apr, 2021

摘要生成模型的事实错误更正

本研究提出了一种后处理校正模块来解决神经抽象汇总系统的事实一致性问题，该模块采用预训练的神经校正模型，能够识别和修正所生成的摘要中的事实错误，并在 CNN / DailyMail 数据集上表现出比先前模型更好的事实一致性的评估结果。

Oct, 2020

对话摘要中注释和检测细粒度事实错误

本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT，以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER，该模型表现出与 SOTA 模型相当的性能，并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战，这为进一步研究提供了坚实的基础。

May, 2023

提高抽象摘要的事实性而不牺牲摘要质量

本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术，旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量，训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。

May, 2023

通过后期编辑和语言模型填充纠正抽象摘要中的多样化事实错误

本文提出使用语言模型生产更加具有代表性的无事实描述样例，训练出更加强大和鲁棒的基于事实更正的模型对生成的摘要进行错误更正提高摘要的事实一致性。

Oct, 2022

提高抽象摘要的事实一致性

文章提出了一种基于事实感知的自动摘要模型 FASum，通过图注意力来提取和整合摘要生成过程中的事实关系，并设计了一个名为 FC 的事实校正模型来自动纠正现有系统生成摘要中的事实错误。实证结果表明，基于事实感知的自动摘要可以生成具有更高事实一致性的抽象摘要，并且纠错模型通过只修改少量关键词就可以提高给定摘要的事实一致性。

Mar, 2020

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

基于微调的抽象摘要模型的实体级事实可适应性

通过分析对知识冲突的鲁棒性，本文研究了基于微调的抽象概括模型，发现并引入了一种可控的反事实数据增广方法来增强事实适应性，并在两种预训练语言模型（PEGASUS 和 BART）以及两个微调数据集（XSum 和 CNN/DailyMail）上实验证明，该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。

Feb, 2024

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020