多类预测中性能度量的统一视角

Aug, 2010

A unifying view for performance measures in multi-class prediction

Giuseppe Jurman, Cesare Furlanello

TL;DR本文研究了一种针对多类问题的分类器性能度量 Confusion Entropy 与传统度量 Matthews Correlation Coefficient 的多分类推广之间的关系，并通过理论和计算证据支持了这一结果。

Abstract

In the last few years, many different performance measures have been introduced to overcome the weakness of the most natural metric, the Accuracy. Among them, matthews correlation coefficient has recently gained popularity among researchers not only in machine learning but also in seve

performance measure matthews correlation coefficient confusion entropy multi-class problems classifier

发现论文，激发创造

优秀的分类度量及其发现方法

通过定义和分析分类表现的可取特性，研究论证了某些性能度量方法比其他方法更好，并提出了一系列新的度量方法，这些方法在除一种可取特性外均可满足，包括 Matthews 相关系数和对称平衡准确性，为实践人员实现充分的分类结果评估提供了重要工具。

Jan, 2022

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

当真阴性趋近无限时，MCC 趋近于精度和召回率的几何平均值

本文研究二元分类器的表现，通过混淆矩阵描述该分类器的真阳性、真阴性、假阳性和假阴性，提出了 MCC，F1 和 FM 得分来总结混淆矩阵信息，其中 MCC 综合考虑整个混淆矩阵；作者证明了，在目标检测问题中有时候计算真阴性的数量太大，难以度量，因此提出仅考虑真阳性、假阳性和假阴性的 FM 和 F1 分数，同时证明 FM 和 MCC 实际上是等价的。

Apr, 2023

优化复杂绩效指标的通用在线算法

我们介绍和分析了一种通用的在线算法，适用于二元、多类和多标签分类问题中的各种复杂性能指标，该算法的更新和预测规则简单且计算效率高，无需存储任何过去的数据，而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾，并通过实证研究验证了所提算法的效率。

Jun, 2024

多类分类的度量：概述

本文介绍了多类分类中的一些性能评估指标，旨在帮助开发人员比较不同分类模型或机器学习技术的性能，以及调整不同参数来分析同一模型的行为。

Aug, 2020

比赛在线预测中的度量熵

本文讨论了使用度量熵进行竞争性在线预测的直接方法及其在竞争预测中的优势和局限性，包括与其他方法的比较。度量熵为竞争性在线预测提供了统一的框架，各种紧凑集合在函数空间中的度量熵的上限估计很容易转化为竞争性在线预测策略的性能边界。

Sep, 2006

评价：从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性

本研究讨论了常见的评估措施，指出它们存在偏差，需要清楚理解偏差并识别其机会或基线水平，提出了反映预测是否知情的概率的若干概念和测量方法，引入了 Markedness 作为一种相对应的概率的二元测度，展示了 Informedness，Markedness，相关性和重要性的优雅联系，以及它们与召回率和准确率之间的直观关系，并概述了从二分类情况扩展到一般的多类情况。

Oct, 2020

关于分类器在各种测试条件下的排名，Softmax 概率告诉我们什么？

本研究旨在发展一种能准确评估各种分类器在来自未标记数据的离域分布上进行测试时的性能排名的度量方法。通过展示常规的不确定性度量方法，特别是最大 Softmax 预测概率，在某些离域环境下预测模型泛化的内在效用，我们首先介绍了一种名为 SoftmaxCorr 的新度量方法。它计算了一个由 Softmax 输出向量构建的类 - 类相关矩阵与一个预定义的具有理想类别相关性的参考矩阵之间的余弦相似度。如果预测与参考矩阵相似度很高，则表明模型在所有类别上提供自信和统一的预测，反映出最小的不确定性和混淆。通过对一系列数据集的严格评估，包括 ImageNet、CIFAR-10 和 WILDS，我们确认了 SoftmaxCorr 在准确预测模型性能方面在分布内和离域设置中的有效性。此外，我们讨论了我们提出的度量方法的局限性，并提出了未来研究的方向。

Jun, 2024

优化不可分解性能度量：两个类别的故事

本文提出一种自适应线性化技术，实现了基于 TPR 和 TNR 的点随机更新，通过提出 SPADE 和 STAMP 方法，可以应对实际中出现的数据标签不平衡及其他特殊要求，并获得了显着的速度优势和精准度，同时确保了收敛性。

May, 2015