QAFactEval：基于 QA 的摘要事实一致性评估的改进

ACLDec, 2021

QAFactEval：基于 QA 的摘要事实一致性评估的改进

QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization

Alexander R. Fabbri, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong

TL;DR本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Abstract

factual consistency is an essential quality of text summarization models in practical settings. Existing work in evaluating this dimension can be broadly categorized into two lines of research, entailment-based a

text summarization factual consistency entailment-based metrics question answering-based metrics qafacteval

发现论文，激发创造

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020

通过问答提高摘要生成的事实一致性

本文提出了一种解决摘要生成模型中可能存在错误信息的方法，策略包括评估指标度量、新型学习算法、人工评估等，并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。

May, 2021

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

基于问答的真实性框架在错误定位方面的缺陷

本文分析了以往的研究结果，发现 QA 基础框架在生成摘要时无法正确标定错误位置，并且由于 QG 模块生成的问题中存在非事实性错误，使问题进一步扩散。尽管进行人类辅助的问题生成也并不能轻易地解决这些问题。因此，实验结果表明，QA 框架在错误的局部化方面存在根本问题，不能仅仅通过加强 QA 和 QG 模型来解决。

Oct, 2022

以问答形式作为自动度量指标，评估摘要的内容质量

提出一种基于问答的评估度量标准（QAEval）来评估摘要的内容质量，通过分析 QAEval，证明 QA-based methods 相较于传统的基于文本内部匹配的度量标准（如 ROUGE）更加准确。

Oct, 2020

提高抽象摘要的事实性而不牺牲摘要质量

本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术，旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量，训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。

May, 2023

询问和回答问题以评估摘要的事实一致性

该研究介绍了一种名为 QAGS 的自动评估协议，用于识别生成的摘要中的事实不一致性，并提供了一种自然的可解释性方法，这种方法是基于提出问题并对摘要和源回答问题的引导下实现的。实验结果表明，与现有的自动评估度量相比，QAGS 具有更高的相关性，并且是一种自动生成可用和事实一致的文本的有希望的工具。

Apr, 2020

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

GO FIGURE: 摘要中事实性的元评估

本研究提出了一个基于事实准确性的机器文本自动生成质量评价框架 ——GO FIGURE，针对 10 种不同的事实准确性评价指标进行了评估，结果表明 QA 指标相较于标准指标具有更强的性能，但性能仍高度依赖问题的生成方式。

Oct, 2020

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021