Jan, 2024

类别通用化误差:一种信息理论分析

TL;DR现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用KL散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息(CMI)获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。