使用重采样方法进行摘要评估度量的统计分析

Mar, 2021

使用重采样方法进行摘要评估度量的统计分析

A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods

Daniel Deutsch, Rotem Dror, Dan Roth

TL;DR本文介绍了利用自主重采样方法来计算置信区间和运行假设检验的方法，并对几个自动评估度量进行了分析，发现自动评估度量的可靠性存在高度不确定性

Abstract

The quality of a summarization evaluation metric is quantified by calculating the correlation between its scores and human annotations across a large number of summaries. Currently, it is unclear how precise thes

summarization evaluation metric correlation confidence intervals bootstrapping bertscore

发现论文，激发创造

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Nov, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

重新审视黄金标准：用稳健的人类评估来立足摘要评估

本文探讨了现有自动摘要的人工评估协议和基准的不足，提出了基于精细语义单元的修改版自动摘要重要性协议（ACU）和大型人工评估数据集（RoSE），并与其他人工评估协议进行了比较，证明了新的基准标注有助于更为稳定和显著的自动度量结果，可用于调整大型语言模型。

Dec, 2022

重温科技论文摘要评估

本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Apr, 2016

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

用校准的置信度评分增强对由 LLM 生成的代码摘要的信任

通过使用大型语言模型 (LLMs) 自动 AI 方法生成的摘要进行性能测量和校准来检测其是否与人工生成的摘要足够相似。

Apr, 2024

HighRES：基于重点提取的无参考自动文摘评价

该研究提出了一种由多个评注者对原始文档进行手动评估的新方法，称为基于高亮参考的摘要评估（HighRES），可用于评估多个系统的摘要内容，并说明其相对于其他评估方法具有更好的评注者间一致性，并能够突显其他评估方法忽略的系统差异。

Jun, 2019

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019