通过反事实估计对文本摘要的实际一致性评估

EMNLPAug, 2021

通过反事实估计对文本摘要的实际一致性评估

Factual Consistency Evaluation for Text Summarization via Counterfactual Estimation

Yuexiang Xie, Fei Sun, Yang Deng, Yaliang Li, Bolin Ding

TL;DR提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Abstract

Despite significant progress has been achieved in text summarization, factual inconsistency in generated summaries still severely limits its practical applications. Among the key factors to ensure factual consistency

text summarization factual consistency automatic evaluation metric counterfactual estimation language prior

发现论文，激发创造

为生成事实一致的文本摘要进行反事实去偏置

本研究提出了一种名为 CoFactSum 的去偏见框架，通过反事实估计，减轻了生成摘要时的语言偏见和不相关偏见的影响，并使用动态的偏差度调整机制。实验结果表明，与几种基线方法相比，CoFactSum 在提高生成的摘要的事实一致性方面具有显著效果。

May, 2023

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

通过问答提高摘要生成的事实一致性

本文提出了一种解决摘要生成模型中可能存在错误信息的方法，策略包括评估指标度量、新型学习算法、人工评估等，并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。

May, 2021

抽象文本摘要中的事实不一致问题：一项调查

研究表明，使用神经编码器 - 解码器模型等抽象方法能够更好的进行生成摘要，但是由于摘要的抽象性较高，导致文章中存在失真和伪造的问题，因此当前的研究主要集中在设计新的评估算法和开发新的摘要系统以解决这一问题。本文综合评述了这些基于事实的评估方法和文本摘要模型。

Apr, 2021

利用掩码汇总生成事实不一致摘要以改进事实一致性检查

本文提出了一种基于遮罩的方法，使用源文本和关键信息屏蔽的参考摘要来生成真实不一致的摘要，这些摘要被用于训练分类器来判断一个产生的摘要是否与源文本事实一致；在七个基准数据集上进行的实验表明，使用我们的方法生成的摘要训练的分类器通常优于现有模型，并且表现出较高的与人类评估结果的相关性，我们还分析了使用我们的方法生成的摘要的特点。

May, 2022

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023

使用合成事实评估自动文本摘要

提出了一种新的自动文本摘要评估系统，该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量，该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。

Apr, 2022

提高抽象摘要的事实性而不牺牲摘要质量

本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术，旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量，训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。

May, 2023

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

QAFactEval：基于 QA 的摘要事实一致性评估的改进

本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Dec, 2021