如何评估摘要生成器：手动语言质量评估的研究设计和统计分析

ACLJan, 2021

如何评估摘要生成器：手动语言质量评估的研究设计和统计分析

How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation

Julius Steen, Katja Markert

TL;DR通过对最近总结系统论文的调查，我们发现，在如何进行这样的评估研究方面存在很少的一致性。我们进行了两个评估实验来比较 Likert 类型和排名注释，并展示了评估方法的最佳选择可能因一个方面与另一个方面不同。使用我们的评估实验，我们展示了注释者的总数对研究功率有很强的影响，而目前的统计分析方法在把一个注释者判定多个摘要时会夸大 Ⅰ 类错误率高达 8 倍。此外，我们强调，为了进行系统比较，当前的实践是在一个固定的研究预算中引出多个判断，这会导致注释功率和可靠性较弱。

Abstract

Manual evaluation is essential to judge progress on automatic text summarization. However, we conduct a survey on recent summarization system papers that reveals little agreement on how to perform such evaluation studies. We conduct two evaluation experiments on two aspects of summaries' linguistic quality (coherence and repetitiveness) to compare Likert-typ

automatic text summarization evaluation methods linguistic quality study parameters statistical analysis

发现论文，激发创造

跨语言文本摘要评估的有效性评估

本文旨在系统评估英语汇总评估方法在其他语言下的效力，并通过对八种不同语言的汇总语料库进行人工注释和 19 种汇总评估指标的评估，发现使用多语言 BERT 作为 BERTScore 的评估方法在所有语言下均表现出良好的效果，超过了英文水平。

Jun, 2021

比较摘要模型需要多少注释？

在这项研究中，我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小，发现只需要少于 100 个样本即可收敛，并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。

Feb, 2024

一种基于语义问答的文本摘要评估方法

本文提出了一种基于问题解答的方法，通过将文本视为小型知识库进行大量提问，以精确地比较两个文本之间的内容差异，从而解决 NLP 系统评估中的一个重要问题。实验结果表明，该方法在分析大型文本语料库方面具有较高的准确性和可靠性。

Apr, 2017

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Nov, 2020

重新审视黄金标准：用稳健的人类评估来立足摘要评估

本文探讨了现有自动摘要的人工评估协议和基准的不足，提出了基于精细语义单元的修改版自动摘要重要性协议（ACU）和大型人工评估数据集（RoSE），并与其他人工评估协议进行了比较，证明了新的基准标注有助于更为稳定和显著的自动度量结果，可用于调整大型语言模型。

Dec, 2022

使用合成事实评估自动文本摘要

提出了一种新的自动文本摘要评估系统，该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量，该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。

Apr, 2022

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

使用重采样方法进行摘要评估度量的统计分析

本文介绍了利用自主重采样方法来计算置信区间和运行假设检验的方法，并对几个自动评估度量进行了分析，发现自动评估度量的可靠性存在高度不确定性

Mar, 2021