以问答形式作为自动度量指标，评估摘要的内容质量

Oct, 2020

以问答形式作为自动度量指标，评估摘要的内容质量

Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary

PDF

Daniel Deutsch, Tania Bedrax-Weiss, Dan Roth

TL;DR提出一种基于问答的评估度量标准（QAEval）来评估摘要的内容质量，通过分析 QAEval，证明 QA-based methods 相较于传统的基于文本内部匹配的度量标准（如 ROUGE）更加准确。

Abstract

A desirable property of a reference-based evaluation metric that measures the content quality of a →

reference-based evaluation content quality summary question answering metric

发现论文，激发创造

基于问题回答的摘要评估度量的答案验证方法基准测试

本文研究基于问答的摘要评估方法，要求自动决定 QA 模型的预测是否正确，即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法，BERTScore 和 LERC，我们发现在某些场景下 LERC 的效果优于其他方法，但在其他场景下表现与词汇重叠相当。然而，我们的实验表明，改进的验证性能不一定能够转化为整体 QA-based 评估质量，在某些情况下，使用较差的验证方法（或根本不使用）具有与使用最佳验证方法相当的性能，这是由于数据集的特性所致。

Apr, 2022

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021

QAFactEval：基于 QA 的摘要事实一致性评估的改进

本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Dec, 2021

一种基于语义问答的文本摘要评估方法

本文提出了一种基于问题解答的方法，通过将文本视为小型知识库进行大量提问，以精确地比较两个文本之间的内容差异，从而解决 NLP 系统评估中的一个重要问题。实验结果表明，该方法在分析大型文本语料库方面具有较高的准确性和可靠性。

Apr, 2017

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020

SQUARE: 使用多个正面和负面参考答案的自动问答评估

使用多个参考答案的评估指标 SQuArE（基于句子级问题回答评估）对句子形式的 QA 系统进行评估，显示其优于以往的基准线，并获得与人工评注最高的相关性。

Sep, 2023

通过对比学习无监督无参考摘要质量评估

本研究提出了一种基于 BERT 的新度量方法，通过无监督对比学习，评估文档摘要的质量，并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。

Oct, 2020

问答法评估法律摘要

我们提出了一个新颖的法律摘要评估框架，利用 GPT-4 生成一系列覆盖参考摘要中主要观点和信息的问题 - 回答对。然后，根据参考摘要中的问题，利用 GPT-4 生成回答。最后，GPT-4 对参考摘要和生成摘要的回答进行评分，并检验了与人工评分之间的相关性，结果表明这种基于问题回答的 GPT-4 方法可以成为评估摘要质量的有用工具。

Sep, 2023

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

作为自动评估指标的问答系统在新闻文章摘要中的应用

本研究提出新的评估指标 Answering Performance for Evaluation of Summaries (APES)，结合阅读理解领域的进展，通过对中心实体进行手动创建问题的回答能力来评估文章摘要或新闻标题的质量，并提出一种端到端的神经抽象模型，以最大化 APES 和 ROUGE 得分。

Jun, 2019