依存层面蕴涵在生成中的事实性评估

EMNLPOct, 2020

依存层面蕴涵在生成中的事实性评估

Evaluating Factuality in Generation with Dependency-level Entailment

Tanya Goyal, Greg Durrett

TL;DR本文提出了一种新的蕴含形式，即在依赖弧的级别上对其进行分解，以便更好地检测文本生成模型中的事实不一致性。实验证明，基于依赖弧的蕴含模型可以更好地识别重新表述和摘要中的事实不一致性，并在定位错误部分方面具有优势。

Abstract

Despite significant progress in text generation models, a serious limitation is their tendency to produce text that is factually inconsistent with information in the input. Recent work has studied whether textual

text generation models factually inconsistent entailment dependency arcs factual inconsistencies

发现论文，激发创造

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

使用语义图表示评估摘要中的事实准确性

FactGraph 方法使用结构化的意义表示形式以及基于图的编码器和适配器来提高文本摘要的真实性。

Apr, 2022

使用文本蕴含反馈的强化学习实现事实一致性摘要

本文介绍一个基于文本蕴涵模型和强化学习的方法，用于优化提取式摘要的准确性和一致性，并在自动度量和人类评估上显示出较好的性能。

May, 2023

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

重新审视用于基于 NLI 的摘要事实评分的文本分解方法

本文系统地比较了将事实性分值应用于分解的不同粒度，并表明不是所有数据集都适用于将上下文信息集成到模型中的方法。

Nov, 2022

利用 NLI 探索事实蕴含关系：新闻媒体研究

探索事实性与自然语言推理之间的关系，并引入 FactRel 注释方案来模拟事实性推理，分析表明，事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系，这表明事实关系更适合分析媒体话语；在新数据集上进行了对比分类模型的实验，并发现在某些情况下，基于注释数据集使用 GPT-4 生成合成数据可以提高性能，而使用 GPT-4 进行少样本学习的结果与在标注数据集上训练的中型语言模型（DeBERTa）相当强大，这些结果表明此任务在世界知识和高级推理能力上的基本依赖关系。

Jun, 2024

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

事实揭示：用于幻觉检测的事实蕴含

介绍了一种新颖的事实推理方法（Factual Entailment），用于检测大型语言模型生成的内容中的事实错误（hallucinations），并提出了一个基准数据集（FACTOID）用于评估和排名语言模型的自动错误产生脆弱性指数（Auto Hallucination Vulnerability Index）。

Mar, 2024

通过语句组合搜索进行自然语言推理

本文提出了一种基于自然语言的演绎推理系统，通过将任务分解为逐步协调的步骤，并由搜索程序生成中间结论的树，可以成功地证明真实的语句并拒绝虚假的语句。

Jan, 2022

抽象文本摘要的实体级事实一致性

提出了一种新的度量生成摘要与原文事实一致性的方法，并展示了通过简单的过滤训练数据可减少实体幻觉问题。此外，还提出了一个摘要值得关注的实体分类任务及联合实体和摘要生成方法，并在实体层面的指标上得到了进一步的改进。

Feb, 2021