评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

COLINGNov, 2020

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

Metrics also Disagree in the Low Scoring Range: Revisiting Summarization Evaluation Metrics

Manik Bhandari, Pranav Gour, Atabak Ashfaq, Pengfei Liu

TL;DR本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Abstract

In text summarization, evaluating the efficacy of automatic metrics without human judgments has become recently popular. One exemplar work concludes that →

text summarization automatic metrics ranking inter-metric agreement reproducible research

发现论文，激发创造

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

医学多文献摘要自动评估指标与人类评估不符

为了改进文献综述的多文件摘要 (MDS)，引入包含人工评估的摘要质量特征和成对偏好的数据集，以支持开发更好的自动评估方法，分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。

May, 2023

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

使用重采样方法进行摘要评估度量的统计分析

本文介绍了利用自主重采样方法来计算置信区间和运行假设检验的方法，并对几个自动评估度量进行了分析，发现自动评估度量的可靠性存在高度不确定性

Mar, 2021

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

自动评估观点总结中的观点普遍性

面对大量的产品评论，我们提出了一种自动度量标准来测试摘要表达的观点普遍性，基于统计与摘要中每个陈述一致的评论数量，同时贬低琐碎或冗余的陈述。通过使用所得到的观点普遍性度量标准，我们展示了人工撰写的摘要仅比随机选取的源评论摘录稍微具有更好的观点普遍性，并且之前的抽取式和抽象式无监督观点摘要方法比人工表现更差。我们展示了通过贪婪构建抽取摘要可以改进，达到了两倍于人工的观点普遍性。最后，我们展示了通过简化源评论的预处理可将现有的抽象观点摘要系统的观点普遍性提高到人工表现水平。

Jul, 2023

重新审视生物医学领域中自动问题摘要评估

本研究针对生物医学领域的问答摘要任务，从四个不同角度进行了人工评估，用以评估现有的自动化摘要评估指标和系统的可行性，并公布了人工注释数据集，以促进生物医学领域的摘要评估方法的研究。

Mar, 2023

比较摘要模型需要多少注释？

在这项研究中，我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小，发现只需要少于 100 个样本即可收敛，并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。

Feb, 2024

OpinSummEval: 重新审视舆情摘要自动评估

观点总结与其他类型的总结任务有所不同，因为其独特关注于方面和情感。本文介绍了 OpinSummEval，它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明，基于神经网络的指标通常优于非神经网络的指标。然而，即使是构建在强大的模型基础之上，如 BART 和 GPT-3/3.5，也不能在所有维度上一致地与人工评分相关，凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。

Oct, 2023