ICLROct, 2021

深度 ReLU 隐式网络的全局收敛理论:基于过度参数化

TL;DR本文分析了 ReLU 激活的隐式神经网络的梯度流,证明了如果隐式神经网络是超参数化的,那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值,这一结果与有限层参数超过的神经网络的收敛结果不同,因为本文的结论适用于无限层的神经网络。