Mar, 2024

通过 Kullback-Leibler 散度与 Cohen's Kappa 相关联的分类性能限制

TL;DR机器学习分类算法的性能通过评估混淆矩阵中的度量指标进行,但这并不能证明达到了最佳性能。通过使用信息距离测量,可以估计错误率的根本限制。混淆矩阵已经与 Chernoff-Stein 引理相结合,将错误率与描述两个类别的概率密度函数之间的 Kullback-Leibler 距离相关联。这导致了一个关键结果,将 Cohen's Kappa 与电阻器平均距离相关联,后者是两个 Kullback-Leibler 距离的并联电阻器组合。通过使用 kNN 估计 KullBack-Leibler 距离,从分类算法使用的相同训练数据对 Resistor Average Distance 进行估计,该距离以比特为单位。接下来,论文详细讨论了该理论和方法,并将其应用于蒙特卡洛数据和真实数据集。分析了四个非常不同的真实数据集 - 乳腺癌、冠心病、破产和粒子鉴别 - 其中包含连续值和离散值,并将它们的分类性能与预期的理论极限进行了比较。在所有情况下,这种分析表明由于两个类别的概率密度函数的底层特征,算法无法表现得更好。通过使用近似平衡的训练数据集来预测不平衡数据的算法性能,可以学到重要的教训。机器学习非常强大,但分类性能最终取决于数据的质量和变量与问题的相关性。