NIPSNov, 2017

用于训练 Tikhonov 正则化深度神经网络的收敛块坐标下降算法

TL;DR本文提出了一种用于训练深度神经网络的光滑的多凸形式,该方法利用了凸分析中的近端点方法,开发了一个块协调下降(BCD)训练算法,证明了其具有全局收敛性和 R - 线性收敛速率,并在实验中展示了优于 Caffe 工具箱中所有随机梯度下降(SGD)变体的表现。