分类评估指标的深入研究及对常见评估实践的批判性反思

ACLApr, 2024

分类评估指标的深入研究及对常见评估实践的批判性反思

A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice

Juri Opitz

TL;DR分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Abstract

classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, me

classification systems evaluation practice metrics macro metrics metric selection

发现论文，激发创造

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

多类分类的度量：概述

本文介绍了多类分类中的一些性能评估指标，旨在帮助开发人员比较不同分类模型或机器学习技术的性能，以及调整不同参数来分析同一模型的行为。

Aug, 2020

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

推荐系统评估技术综述

本文详细介绍了推荐系统的评估方法，包括内容推荐和协同过滤机制的相似度指标，候选生成度量，预测指标，排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖，提出了一种选择和解释这些指标的框架，以促进推荐系统的改进和商业目标的实现。

Dec, 2023

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

分类性能度量引发及其应用

本文介绍了 Metric elicitation 作为选择最能反映隐含用户偏好的性能评估指标的原理性框架，并提出使用分类器的成对偏好反馈来激发分类性能指标的新策略，包括用于二元和多类分类问题的线性和线性分式指标的新策略，以及在存在多个敏感组时激发群体公平性能度量的框架的推广，文中也提出了用于优化深度网络训练的黑盒度量的 Metric elicitation 框架，最后还进行了一项初步的真实用户研究，证明了在二值分类设置中 Metric elicitation 框架恢复用户首选性能评估指标的有效性。

Aug, 2022

图像处理指标的普遍限制：一个图片故事

本研究通过国际图像分析专家团队的 Delphi 过程，指出算法验证中经常存在的性能度量的局限性，无法全面评估自动算法的有效性及透明性，特别是在医学图像分析方面，这一问题尤为突出。

Apr, 2021