分类度量标准的分析与比较

Sep, 2022

Analysis and Comparison of Classification Metrics

Luciana Ferrer

TL;DR该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Abstract

A variety of different performance metrics are commonly used in the machine learning literature for the evaluation of classification systems. Some of the most common ones for measuring quality of hard decisions a

machine learning performance metrics classification systems expected cost scoring rules

发现论文，激发创造

优秀的分类度量及其发现方法

通过定义和分析分类表现的可取特性，研究论证了某些性能度量方法比其他方法更好，并提出了一系列新的度量方法，这些方法在除一种可取特性外均可满足，包括 Matthews 相关系数和对称平衡准确性，为实践人员实现充分的分类结果评估提供了重要工具。

Jan, 2022

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

如何评估分类器的校准性：在特定上下文可靠性定义下的分类器校准性评估

本文针对分类器标定的问题，提出以正确描述其应用背景为目的，开发更准确反映标定误差的更具表达力的度量标准；其中，基于期望标定误差的推广，提出了几种不同的度量标准，分别反映了针对不同的可靠性定义的标定误差；此外，基于这些不同的度量标准，作者对常用的神经网络结构和标定技术进行了广泛的实证评估，发现许多常用的标定技术在这些不同可靠性定义的标定误差上并未有统一的改善.

May, 2022

使用电竞数据重新思考概率估计模型的评估指标

该研究提出了一种新的平衡得分指标，用于评估电子竞技中的胜率预测模型，并发现该指标在六个方面具有简单且有效的性质，对概率估计模型具有潜在的应用潜力。这项研究的结果在模拟研究和真实比赛快照数据上进行了广泛评估，为电子竞技胜率预测模型及其他概率估计模型的评估提供了有希望的方法。

Sep, 2023

多类预测中性能度量的统一视角

本文研究了一种针对多类问题的分类器性能度量 Confusion Entropy 与传统度量 Matthews Correlation Coefficient 的多分类推广之间的关系，并通过理论和计算证据支持了这一结果。

Aug, 2010

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024

评价：从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性

本研究讨论了常见的评估措施，指出它们存在偏差，需要清楚理解偏差并识别其机会或基线水平，提出了反映预测是否知情的概率的若干概念和测量方法，引入了 Markedness 作为一种相对应的概率的二元测度，展示了 Informedness，Markedness，相关性和重要性的优雅联系，以及它们与召回率和准确率之间的直观关系，并概述了从二分类情况扩展到一般的多类情况。

Oct, 2020

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

多类分类的度量：概述

本文介绍了多类分类中的一些性能评估指标，旨在帮助开发人员比较不同分类模型或机器学习技术的性能，以及调整不同参数来分析同一模型的行为。

Aug, 2020

克服选择性分类系统评估中的常见缺陷

选择性分类方法可以在低置信度预测时拒绝，可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求，涉及任务对齐、可解释性和灵活性，并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积（AUGRC），该曲线满足所有要求，并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准，我们在实证上证明了 AUGRC 的相关性。我们发现，在这 6 个数据集中，所提出的度量方法显著改变了度量排名中的 5 个数据集。

Jul, 2024