参考文献的重要性：使用细粒度评估框架对对话摘要的事实纠错进行基准测试

ACLJun, 2023

参考文献的重要性：使用细粒度评估框架对对话摘要的事实纠错进行基准测试

Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework

PDF

Mingqi Gao, Xiaojun Wan, Jia Su, Zhefeng Wang, Baoxing Huai

TL;DR本文提出 FERRANTI 框架，基于参考文献纠错的细粒度评估机制，通过实验证明了 FEC 方法在不同事实错误类别上的显著性能差异，以及提出的最佳训练模式。

Abstract

factuality is important to dialogue summarization. factual error correction (FEC) of model-generated summaries is one way to improve

factuality dialogue summarization factual error correction fec evaluation ferranti

发现论文，激发创造

对话摘要中注释和检测细粒度事实错误

本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT，以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER，该模型表现出与 SOTA 模型相当的性能，并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战，这为进一步研究提供了坚实的基础。

May, 2023

理解摘要中的事实错误：错误，摘要生成器，数据集和错误检测器

研究了摘要系统在制作摘要时出现的事实性错误，并比较了不同技术和数据集上的效果，并取得了一些新的结果：使用预训练模型的现代数据集显示结果显著不同于使用 pre-Transformer 的旧数据集，没有一种技术在所有情况下都是优秀的。

May, 2022

通过实体检索进行抽象摘要的事实错误矫正

本文提出了一种基于实体检索的高效事实错误纠正系统 RFEC，通过检索证据句子来缩短系统分析的文本长度，从而检测摘要中的实体级别错误并替换错误的实体，实验证明我们提出的错误纠正系统比基线方法具有更具竞争力的性能和更快的速度。

Apr, 2022

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

CONFIT：基于语言学对比微调的忠实对话摘要

通过 ConFiT 训练方法及一系列的模块化目标来改善抽象型对话摘要的事实准确性，最终生成的摘要数据质量得到了显著提高。

Dec, 2021

基于证据的事实错误校正

本文介绍了事实错误校正的任务和方法：通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法，通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估，结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正，在人工评估中将错误校正的数量提高了 5 倍，并且 SARI 分数提高了 0.125。

Jun, 2021

基于证据的事实错误修正

本文介绍了一个新的任务：事实错误纠正。通过将证据整合到掩码声明中进行更正，学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法，通过检索证据获得更好的结果，从而取得了更好的性能，并通过人类评估证明了其有效性。

Dec, 2020

使用 FRANK 来理解抽象摘要中的事实性：一个事实度量的基准

该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释，并使用它来识别各种类别的事实错误的比例，并基准事实度度量标准，显示它们与人类判断的相关性以及它们的特定优点和缺点

Apr, 2021

多模式摘要的细粒度和可解释性事实评估

多模态概括旨在根据文本和图像生成简洁的摘要，但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性，我们提出了两个细粒度且可解释的评估框架（FALLACIOUS），用于不同的应用场景，即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是，基于非参考物的真实性评估框架不需要基准真实性，因此具有更广泛的应用场景。为了评估提出框架的有效性，我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。

Feb, 2024

DialFact：对话事实核查基准

通过构建一个名为 DialFact 的测试基准数据集，该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段，并提出了在对话中事实核查的三个子任务：可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战，本文提出了一种简单而数据效率高的解决方案，以有效提高对话中的事实核查性能。

Oct, 2021