基于问题回答的摘要评估度量的答案验证方法基准测试

Apr, 2022

基于问题回答的摘要评估度量的答案验证方法基准测试

Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics

Daniel Deutsch, Dan Roth

TL;DR本文研究基于问答的摘要评估方法，要求自动决定 QA 模型的预测是否正确，即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法，BERTScore 和 LERC，我们发现在某些场景下 LERC 的效果优于其他方法，但在其他场景下表现与词汇重叠相当。然而，我们的实验表明，改进的验证性能不一定能够转化为整体 QA-based 评估质量，在某些情况下，使用较差的验证方法（或根本不使用）具有与使用最佳验证方法相当的性能，这是由于数据集的特性所致。

Abstract

question answering-based summarization evaluation metrics must automatically determine whether the QA model's prediction is correct or not, a task known as →

question answering summarization evaluation answer verification lexical overlap bertscore

发现论文，激发创造

以问答形式作为自动度量指标，评估摘要的内容质量

提出一种基于问答的评估度量标准（QAEval）来评估摘要的内容质量，通过分析 QAEval，证明 QA-based methods 相较于传统的基于文本内部匹配的度量标准（如 ROUGE）更加准确。

Oct, 2020

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

QAFactEval：基于 QA 的摘要事实一致性评估的改进

本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Dec, 2021

SQUARE: 使用多个正面和负面参考答案的自动问答评估

使用多个参考答案的评估指标 SQuArE（基于句子级问题回答评估）对句子形式的 QA 系统进行评估，显示其优于以往的基准线，并获得与人工评注最高的相关性。

Sep, 2023

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

问答法评估法律摘要

我们提出了一个新颖的法律摘要评估框架，利用 GPT-4 生成一系列覆盖参考摘要中主要观点和信息的问题 - 回答对。然后，根据参考摘要中的问题，利用 GPT-4 生成回答。最后，GPT-4 对参考摘要和生成摘要的回答进行评分，并检验了与人工评分之间的相关性，结果表明这种基于问题回答的 GPT-4 方法可以成为评估摘要质量的有用工具。

Sep, 2023

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023