Sep, 2023

全局收敛性:适用于两层神经网络逻辑损失的随机梯度下降(SGD)

TL;DR通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如 $sigmoid$ 和 $tanh$)的门数量的 $2$ 层神经网络,SGD 能收敛到适当正则化的全局最小值;同时证明了连续时间 SGD 的指数快速收敛性,也适用于平滑的无界激活函数(如 $SoftPlus$)。