ICMLJan, 2021
关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明
On the Proof of Global Convergence of Gradient Descent for Deep ReLU Networks with Linear Widths
Quynh Nguyen
TL;DR本文利用 Lipschitz 性质,仅需跟踪最后一个隐藏层的输出的演变,即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛,并显示了一些其跟先前的技术相比的改进。