Nov, 2023

两层非线性回归的近似牛顿方法的局部收敛性

TL;DR我们对两层回归问题进行了分析,使用了 softmax 激活单元作为第一层,并分析了近似牛顿法用于最小化正则化训练损失的收敛性质,证明了 Hessian 矩阵的损失函数是正定和 Lipschitz 连续的,在适当的初始化和迭代次数后,我们的算法可以高概率地找到训练损失的 ε- 近似最小化器。