ICLROct, 2021

关于使用随机梯度下降训练的模型的泛化:信息论界限和含义

TL;DR本文基于 Neu et al. (2021) 的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和 ReLU 网络的泛化行为,并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。