多类预测中性能度量的统一视角
通过定义和分析分类表现的可取特性,研究论证了某些性能度量方法比其他方法更好,并提出了一系列新的度量方法,这些方法在除一种可取特性外均可满足,包括 Matthews 相关系数和对称平衡准确性,为实践人员实现充分的分类结果评估提供了重要工具。
Jan, 2022
在不平衡分类问题中,传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健,因为当少数类占比接近 0 时,这些度量标准下的贝叶斯分类器的真正阳性率(TPR)也趋近于 0。为了解决这个问题,我们提出了对 F-score 和 MCC 的稳健修正,即使在极度不平衡的情况下,TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为,并讨论了与 ROC 和精确率 - 召回率曲线的关联性,并提出了如何将它们与性能度量标准结合使用的建议。
Apr, 2024
本文研究二元分类器的表现,通过混淆矩阵描述该分类器的真阳性、真阴性、假阳性和假阴性,提出了 MCC,F1 和 FM 得分来总结混淆矩阵信息,其中 MCC 综合考虑整个混淆矩阵;作者证明了,在目标检测问题中有时候计算真阴性的数量太大,难以度量,因此提出仅考虑真阳性、假阳性和假阴性的 FM 和 F1 分数,同时证明 FM 和 MCC 实际上是等价的。
Apr, 2023
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾,并通过实证研究验证了所提算法的效率。
Jun, 2024
本文讨论了使用度量熵进行竞争性在线预测的直接方法及其在竞争预测中的优势和局限性,包括与其他方法的比较。度量熵为竞争性在线预测提供了统一的框架,各种紧凑集合在函数空间中的度量熵的上限估计很容易转化为竞争性在线预测策略的性能边界。
Sep, 2006
本研究讨论了常见的评估措施,指出它们存在偏差,需要清楚理解偏差并识别其机会或基线水平,提出了反映预测是否知情的概率的若干概念和测量方法,引入了 Markedness 作为一种相对应的概率的二元测度,展示了 Informedness,Markedness,相关性和重要性的优雅联系,以及它们与召回率和准确率之间的直观关系,并概述了从二分类情况扩展到一般的多类情况。
Oct, 2020
本研究旨在发展一种能准确评估各种分类器在来自未标记数据的离域分布上进行测试时的性能排名的度量方法。通过展示常规的不确定性度量方法,特别是最大 Softmax 预测概率,在某些离域环境下预测模型泛化的内在效用,我们首先介绍了一种名为 SoftmaxCorr 的新度量方法。它计算了一个由 Softmax 输出向量构建的类 - 类相关矩阵与一个预定义的具有理想类别相关性的参考矩阵之间的余弦相似度。如果预测与参考矩阵相似度很高,则表明模型在所有类别上提供自信和统一的预测,反映出最小的不确定性和混淆。通过对一系列数据集的严格评估,包括 ImageNet、CIFAR-10 和 WILDS,我们确认了 SoftmaxCorr 在准确预测模型性能方面在分布内和离域设置中的有效性。此外,我们讨论了我们提出的度量方法的局限性,并提出了未来研究的方向。
Jun, 2024
本文提出一种自适应线性化技术,实现了基于 TPR 和 TNR 的点随机更新,通过提出 SPADE 和 STAMP 方法,可以应对实际中出现的数据标签不平衡及其他特殊要求,并获得了显着的速度优势和精准度,同时确保了收敛性。
May, 2015