全局收敛性：适用于两层神经网络逻辑损失的随机梯度下降（SGD）

Sep, 2023

全局收敛性：适用于两层神经网络逻辑损失的随机梯度下降（SGD）

Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets

Pulkit Gopalani, Samyak Jha, Anirbit Mukherjee

TL;DR通过分析随机梯度下降算法在Frobenius范数正则化的$logistic$损失函数上的最新进展，本文首次证明了对于任意数据和具有适当平滑和有界激活函数（如$sigmoid$和$tanh$）的门数量的$2$层神经网络，SGD能收敛到适当正则化的全局最小值；同时证明了连续时间SGD的指数快速收敛性，也适用于平滑的无界激活函数（如$SoftPlus$）。

Abstract

In this note, we demonstrate a first-of-its-kind provable convergence of sgd to the global minima of appropriately regularized logistic empirical risk of depth $2$ nets -- for arbitrary data and with any number o