基于证据的事实错误校正

Jun, 2021

Evidence-based Factual Error Correction

James Thorne, Andreas Vlachos

TL;DR本文介绍了事实错误校正的任务和方法：通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法，通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估，结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正，在人工评估中将错误校正的数量提高了 5 倍，并且 SARI 分数提高了 0.125。

Abstract

This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is better supported by evidence. This extends the well-studied task of →

factual error correction fact verification evidence t5 transformer distant supervision

发现论文，激发创造

基于证据的事实错误修正

本文介绍了一个新的任务：事实错误纠正。通过将证据整合到掩码声明中进行更正，学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法，通过检索证据获得更好的结果，从而取得了更好的性能，并通过人类评估证明了其有效性。

Dec, 2020

摘要生成模型的事实错误更正

本研究提出了一种后处理校正模块来解决神经抽象汇总系统的事实一致性问题，该模块采用预训练的神经校正模型，能够识别和修正所生成的摘要中的事实错误，并在 CNN / DailyMail 数据集上表现出比先前模型更好的事实一致性的评估结果。

Oct, 2020

基于事实的文本编辑

我们提出了一种名为事实为本文本编辑的新任务，通过使用神经网络架构 FactEditor，其通过参考给定的知识库中的事实来编辑草稿文本，在实验中证明在忠实度和流畅性方面均优于编码解码模型，并且较编码器解码器方法具有更快的推理速度。

Jul, 2020

学习注入事实错误来提高事实错误校正

通过 mask-corrupt-correct 的方法和 Learning to Inject Factual Errors (LIFE) 的改进，本研究成功地提高了事实错误校正的效果，并在两个方面超越了现有方法和 ChatGPT 的性能表现。

Dec, 2023

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

通过实体检索进行抽象摘要的事实错误矫正

本文提出了一种基于实体检索的高效事实错误纠正系统 RFEC，通过检索证据句子来缩短系统分析的文本长度，从而检测摘要中的实体级别错误并替换错误的实体，实验证明我们提出的错误纠正系统比基线方法具有更具竞争力的性能和更快的速度。

Apr, 2022

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

零样式忠实事实误差校正

该论文提出了一种零 - shot 框架，用于纠正文本知识库中的事实错误，具有可解释性，并使用不同的方法进行度量，改善了已有的模型。

May, 2023

对话摘要中注释和检测细粒度事实错误

本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT，以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER，该模型表现出与 SOTA 模型相当的性能，并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战，这为进一步研究提供了坚实的基础。

May, 2023