ICMLJan, 2021

关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明

TL;DR本文利用 Lipschitz 性质,仅需跟踪最后一个隐藏层的输出的演变,即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛,并显示了一些其跟先前的技术相比的改进。