深度神经网络的信息论泛化界

Apr, 2024

Information-Theoretic Generalization Bounds for Deep Neural Networks

Haiyun He, Christina Lee Yu, Ziv Goldfeld

TL;DR深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的Kullback-Leibler（KL）散度或1-Wasserstein距离导出了两个层次性的泛化误差界限。KL散度界限随着层索引的增加而收缩，而Wasserstein界限暗示了存在一个层作为泛化漏斗，它达到了最小的1-Wasserstein距离。在具有线性DNN的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化DNN模型（Dropout，DropConnect和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和Gibbs算法的DNNs表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Abstract

deep neural networks (DNNs) exhibit an exceptional capacity for generalization in practical applications. This work aims to capture the effect and benefits of depth for supervised learning via →