学习修改引用以实现忠实摘要
通过对替身候选生成和选择的研究,我们提出了一个模型无关的后处理技术来修正当前神经抽象摘要生成模型中常见的不忠于原始内容的摘要幻觉现象,我们学习了一个判别式修正模型并证明,通过替代抽象式中的具名实体和数量标识来代替同源文本中语义相似类型的实体可以有效识别和修正这些不符合原文本实质的幻觉,希望此方法可以为未来的神经抽象摘要生成方向的研究提供新的思路。
Apr, 2021
本文介绍了一种基于🈚️ground truth summaries 的情况下,利用文档创建合成数据集、引入多种噪声生成函数以及学习生成原始评论的摘要模型的方法,该方法比抽取式和生成式基线模型都有更好的效果。
Apr, 2020
本研究提出了一种名为 Referee 的句子摘要框架,可无需金标准摘要进行训练,同时允许直接控制压缩比率。通过符号知识蒸馏的概念框架,从预训练语言模型中提炼潜在知识,进一步纯化、过滤和迭代,创造了高质量的数据集和摘要模型,大幅提升了摘要的可控性和压缩效率。
Oct, 2022
本文提出了一种基于遮罩的方法,使用源文本和关键信息屏蔽的参考摘要来生成真实不一致的摘要,这些摘要被用于训练分类器来判断一个产生的摘要是否与源文本事实一致;在七个基准数据集上进行的实验表明,使用我们的方法生成的摘要训练的分类器通常优于现有模型,并且表现出较高的与人类评估结果的相关性,我们还分析了使用我们的方法生成的摘要的特点。
May, 2022
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
本研究提出一种基于拒绝学习的训练目标和一种正则化的解码目标,以提高摘要文本的真实性和抽象性。与五种基准模型相比,我们的方法在自动和人工评估中显著提高了生成的摘要文本的真实性。
Feb, 2023
研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察,作者认为人工标注的细粒度数据提供了更有效的训练信号,并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记,从而使得训练更为准确的抽象摘要模型成为可能。
Apr, 2021