Jun, 2024

关于分类器在各种测试条件下的排名,Softmax 概率告诉我们什么?

TL;DR本研究旨在发展一种能准确评估各种分类器在来自未标记数据的离域分布上进行测试时的性能排名的度量方法。通过展示常规的不确定性度量方法,特别是最大 Softmax 预测概率,在某些离域环境下预测模型泛化的内在效用,我们首先介绍了一种名为 SoftmaxCorr 的新度量方法。它计算了一个由 Softmax 输出向量构建的类 - 类相关矩阵与一个预定义的具有理想类别相关性的参考矩阵之间的余弦相似度。如果预测与参考矩阵相似度很高,则表明模型在所有类别上提供自信和统一的预测,反映出最小的不确定性和混淆。通过对一系列数据集的严格评估,包括 ImageNet、CIFAR-10 和 WILDS,我们确认了 SoftmaxCorr 在准确预测模型性能方面在分布内和离域设置中的有效性。此外,我们讨论了我们提出的度量方法的局限性,并提出了未来研究的方向。