Oct, 2021

两层神经网络的梯度下降: 边界最大化和简化偏差

TL;DR本文研究了Leaky ReLU神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的“max-margin”解,同时还对梯度下降在训练初期的“简单度偏向”现象进行了理论解释。