ICLRJun, 2023

浅层 ReLU 网络中最小稳定性的隐含偏差

TL;DR本文探讨使用随机梯度下降法训练具有 ReLU 网络的单隐藏层多元网络应用于二次损失下所得到解的性质,得到其 Laplacian 的类似结果。结果表明,当步长增大时,网络映射函数二阶导数有界性的界限变小,即使用更大的步长会导致更平稳的预测器,最后,本文证明了如果函数在 Sobolev 意义下足够平滑,则可以使用相应于梯度下降稳定解的 ReLU 浅层网络任意逼近。