面向忠实度的抽象化摘要生成解码策略
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有可能成为自动评估度量标准以及训练和解码标准的前景。
May, 2020
本研究提出了 Faithfulness Enhanced Summarization (FES) 模型,该模型使用 question-answering (QA) 技术检查 encoder 是否完全理解输入文档,并回答关键信息的问题,并引入 max-margin loss 来防止语言模型的过度自信。实验表明,我们的模型在两个基准摘要数据集 CNN/DM 和 XSum 上显著优于强对比模型,并生成比对比模型更符合事实的摘要。
Oct, 2022
本文提出了一种评估总结系统忠实度的框架,通过生成一个在抽象程度不同操作点的抽象 - 提取度交替曲线来作为控制,然后展示作者提出的一种方法以及目前的 MLE 基准都在相同的抽象水平上比控制更差。接着,我们学习了一个选择器来确定给定文档最忠实和最抽象的总结,并显示该系统能在二个数据集上通过人类评估获得更高的忠实度分数,并比基准系统更具抽象性。此外,我们展示了本系统能够实现更好的抽象 - 提取度交替权衡。
Aug, 2021
本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用,发现对于绝大部分度量方法而言,在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能,我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法,其在多个领域上均能稳定提高评价性能。
Nov, 2022
文章介绍了一种 “Focus Attention Mechanism” 方法,用于促进生成与输入的主题相似的数据摘要,同时提出了一种 “Focus Sampling” 方法,实现多样化生成,实验表明这种方法比其他采样方法更有效。
May, 2021
该研究提出了一种基于自动问答的 faithfulness 评估度量方式(FEQA),并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。
May, 2020
通过对替身候选生成和选择的研究,我们提出了一个模型无关的后处理技术来修正当前神经抽象摘要生成模型中常见的不忠于原始内容的摘要幻觉现象,我们学习了一个判别式修正模型并证明,通过替代抽象式中的具名实体和数量标识来代替同源文本中语义相似类型的实体可以有效识别和修正这些不符合原文本实质的幻觉,希望此方法可以为未来的神经抽象摘要生成方向的研究提供新的思路。
Apr, 2021
本文从事 Seq2Seq 模型中摘要不忠实的问题,并从事实鲁棒性的角度对现有系统的忠实度进行研究。针对当前存在的问题,作者提出了一种名为 FRSUM 的新的训练策略,能够在生成文本时防御显式和隐式的对抗信息,从而提高 Seq2Seq 模型的忠实度
Nov, 2022