重新审视自动摘要评估指标的系统层面相关性

Apr, 2022

重新审视自动摘要评估指标的系统层面相关性

Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics

Daniel Deutsch, Rotem Dror, Dan Roth

TL;DR本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Abstract

How reliably an automatic summarization evaluation metric replicates human judgments of summary quality is quantified by system-level correlations. We identify two ways in which the definition of the

automatic summarization metric system-level correlation rouge human judgment

发现论文，激发创造

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

使用重采样方法进行摘要评估度量的统计分析

本文介绍了利用自主重采样方法来计算置信区间和运行假设检验的方法，并对几个自动评估度量进行了分析，发现自动评估度量的可靠性存在高度不确定性

Mar, 2021

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Nov, 2020

寻找平衡自动化程度的摘要评估方法

本文提出了一种半自动到全自动的摘要评估方法，包括使用自然语言推理模型替代手动评价 Summary Content Units（SCUs）在系统摘要中的存在，并使用语义角色标注模型自动提取 Semantic Triplet Units（STUs）来替代 SCUs，同时提出了 Lite2.xPyramid 作为中间度量方法，其使用简单的回归器来预测 STUs 如何模拟 SCUs，并保留更难以模拟的 SCUs。其中 Lite2Pyramid 在摘要级别的相关性方面表现最佳，Lite3Pyramid 在自动评估方面效果更好，Lite2.xPyramid 则为自动评估和手动评估提供了平衡。

Sep, 2021

重温科技论文摘要评估

本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Apr, 2016

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

重新审视黄金标准：用稳健的人类评估来立足摘要评估

本文探讨了现有自动摘要的人工评估协议和基准的不足，提出了基于精细语义单元的修改版自动摘要重要性协议（ACU）和大型人工评估数据集（RoSE），并与其他人工评估协议进行了比较，证明了新的基准标注有助于更为稳定和显著的自动度量结果，可用于调整大型语言模型。

Dec, 2022

医学多文献摘要自动评估指标与人类评估不符

为了改进文献综述的多文件摘要 (MDS)，引入包含人工评估的摘要质量特征和成对偏好的数据集，以支持开发更好的自动评估方法，分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。

May, 2023

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021