Sep, 2023
全局收敛性:适用于两层神经网络逻辑损失的随机梯度下降(SGD)
Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets
TL;DR通过分析随机梯度下降算法在Frobenius范数正则化的$logistic$损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如$sigmoid$和$tanh$)的门数量的$2$层神经网络,SGD能收敛到适当正则化的全局最小值;同时证明了连续时间SGD的指数快速收敛性,也适用于平滑的无界激活函数(如$SoftPlus$)。