多类分类的度量：概述

Aug, 2020

Metrics for Multi-Class Classification: an Overview

Margherita Grandini, Enrico Bagli, Giorgio Visani

TL;DR本文介绍了多类分类中的一些性能评估指标，旨在帮助开发人员比较不同分类模型或机器学习技术的性能，以及调整不同参数来分析同一模型的行为。

Abstract

Classification tasks in machine learning involving more than two classes are known by the name of "multi-class classification". performance indicators are very useful when the aim is to evaluate and compare diffe

multi-class classification performance indicators metrics classifier development

发现论文，激发创造

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024

多标签性能度量的统一视角

本文提出了一个统一的边界视角来重新审视多标记分类中的十一种性能度量。通过最大化标签和实例间的边界，不同对应的性能度量将被优化，从而设计一种称为 LIMO 的最大边缘方法。

Sep, 2016

机器学习回归、预测和预测中的性能度量（误差度量）：属性和分类

本研究分析了各种性能指标及其分类方法，提出了 “主要指标、扩展指标、组合指标、度量组合集合” 四种性能指标类型，并确定了影响主要指标结构和特性的三个关键组成部分：点距离确定方法、规范化方法和数据集上点距离聚合方法.

Sep, 2018

多类预测中性能度量的统一视角

本文研究了一种针对多类问题的分类器性能度量 Confusion Entropy 与传统度量 Matthews Correlation Coefficient 的多分类推广之间的关系，并通过理论和计算证据支持了这一结果。

Aug, 2010

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

优秀的分类度量及其发现方法

通过定义和分析分类表现的可取特性，研究论证了某些性能度量方法比其他方法更好，并提出了一系列新的度量方法，这些方法在除一种可取特性外均可满足，包括 Matthews 相关系数和对称平衡准确性，为实践人员实现充分的分类结果评估提供了重要工具。

Jan, 2022

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

不均衡数据中的度量学习

研究了机器学习算法的度量函数以及度量学习算法，提出了一种处理类别不平衡的 Mahalanobis 度量学习算法 (IML)，并证明了其有效性。

Sep, 2019

多标签分类方法的综合比较研究

这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究，发现 RFPCT，RFDTBR，ECCJ48，EBRJ48 和 AdaBoostMH 是效果最好的方法，希望今后引入新方法时，应该将其与不同的 MLC 方法的子集进行比较，以便更好地评估其性能表现。

Feb, 2021

分类性能度量引发及其应用

本文介绍了 Metric elicitation 作为选择最能反映隐含用户偏好的性能评估指标的原理性框架，并提出使用分类器的成对偏好反馈来激发分类性能指标的新策略，包括用于二元和多类分类问题的线性和线性分式指标的新策略，以及在存在多个敏感组时激发群体公平性能度量的框架的推广，文中也提出了用于优化深度网络训练的黑盒度量的 Metric elicitation 框架，最后还进行了一项初步的真实用户研究，证明了在二值分类设置中 Metric elicitation 框架恢复用户首选性能评估指标的有效性。

Aug, 2022