参考文献的重要性:使用细粒度评估框架对对话摘要的事实纠错进行基准测试
本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT,以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER,该模型表现出与 SOTA 模型相当的性能,并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战,这为进一步研究提供了坚实的基础。
May, 2023
研究了摘要系统在制作摘要时出现的事实性错误,并比较了不同技术和数据集上的效果,并取得了一些新的结果:使用预训练模型的现代数据集显示结果显著不同于使用 pre-Transformer 的旧数据集,没有一种技术在所有情况下都是优秀的。
May, 2022
本文提出了一种基于实体检索的高效事实错误纠正系统 RFEC,通过检索证据句子来缩短系统分析的文本长度,从而检测摘要中的实体级别错误并替换错误的实体,实验证明我们提出的错误纠正系统比基线方法具有更具竞争力的性能和更快的速度。
Apr, 2022
研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察,作者认为人工标注的细粒度数据提供了更有效的训练信号,并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记,从而使得训练更为准确的抽象摘要模型成为可能。
Apr, 2021
本文介绍了事实错误校正的任务和方法:通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法,通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估,结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正,在人工评估中将错误校正的数量提高了 5 倍,并且 SARI 分数提高了 0.125。
Jun, 2021
本文介绍了一个新的任务:事实错误纠正。通过将证据整合到掩码声明中进行更正,学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法,通过检索证据获得更好的结果,从而取得了更好的性能,并通过人类评估证明了其有效性。
Dec, 2020
该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释,并使用它来识别各种类别的事实错误的比例,并基准事实度度量标准,显示它们与人类判断的相关性以及它们的特定优点和缺点
Apr, 2021
多模态概括旨在根据文本和图像生成简洁的摘要,但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性,我们提出了两个细粒度且可解释的评估框架(FALLACIOUS),用于不同的应用场景,即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是,基于非参考物的真实性评估框架不需要基准真实性,因此具有更广泛的应用场景。为了评估提出框架的有效性,我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。
Feb, 2024
通过构建一个名为 DialFact 的测试基准数据集,该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段,并提出了在对话中事实核查的三个子任务:可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战,本文提出了一种简单而数据效率高的解决方案,以有效提高对话中的事实核查性能。
Oct, 2021