FactPEGASUS: 面向摘要生成的事实感知预训练与微调
通过分析对知识冲突的鲁棒性,本文研究了基于微调的抽象概括模型,发现并引入了一种可控的反事实数据增广方法来增强事实适应性,并在两种预训练语言模型(PEGASUS 和 BART)以及两个微调数据集(XSum 和 CNN/DailyMail)上实验证明,该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。
Feb, 2024
该研究提出了一种新的自监督目标,将重要的句子从输入文档中删除 / 掩盖,并从剩余的句子中生成一个输出序列,类似于抽取式摘要,PEGASUS 模型在 12 个文本摘要任务中均取得了最先进的 ROUGE 得分,并在只有 1000 个样例的 6 个数据集上超越了先前的最先进结果,同时在人类评估方面也取得了良好表现。
Dec, 2019
本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术,旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量,训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。
May, 2023
研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察,作者认为人工标注的细粒度数据提供了更有效的训练信号,并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记,从而使得训练更为准确的抽象摘要模型成为可能。
Apr, 2021
本文提出一种无监督的方法,对摘要生成的可选方案进行重新排名,以缩小无监督和有监督模型之间的性能差距。与四个广泛采用的摘要基准相比,该方法将预训练的无监督 PEGASUS 的相关平均 ROUGE 增加了 4.37% 至 7.27%,并在 30 个转移设置中实现了 7.51% 的相对增益(高达 23.73%)。
Dec, 2022
文章提出了一种基于事实感知的自动摘要模型 FASum,通过图注意力来提取和整合摘要生成过程中的事实关系,并设计了一个名为 FC 的事实校正模型来自动纠正现有系统生成摘要中的事实错误。实证结果表明,基于事实感知的自动摘要可以生成具有更高事实一致性的抽象摘要,并且纠错模型通过只修改少量关键词就可以提高给定摘要的事实一致性。
Mar, 2020
本论文提出了一种名为 Span-Fact 的技术,通过单一或多重遮盖策略,利用问题解答模型从系统生成的摘要中选择语义上一致且保留形式结构的实体,从而提高了系统生成的摘要的事实一致性和质量。
Oct, 2020