规则化的高斯牛顿方法优化超参数化神经网络
本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广的神经网络,GGN 的收敛速度是二次的。此外,我们还提供了 mini-batch GGN 算法的收敛保证,这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明,对于训练常规网络,我们的 GGN 算法比 SGD 收敛速度更快,性能更好。
May, 2019
我们介绍了 EGN,一种随机二阶优化算法,将广义高斯 - 牛顿(GN)Hessian 近似与低秩线性代数相结合,计算下降方向。借助 Duncan-Guttman 矩阵恒等式,通过分解一个与小批次大小相同的矩阵来获得参数更新,这在维度远超批次大小的大规模机器学习问题中特别有优势。此外,我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外,在温和假设下,我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后,我们的数值实验表明,在各种监督学习和强化学习任务中,EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。
May, 2024
本文提出了一种基于广义高斯牛顿近似方法的贝叶斯神经网络预测方法,将原始预测模型线性化为广义线性模型(GLM)后,用于后验推理和预测中,解决了拉普拉斯近似方法下的欠拟合问题。在多个标准分类数据集上以及外部分布检测中得到了验证。
Aug, 2020
本研究通过分析神经网络与算法优化之间的关系,探讨了近期许多工作都关注的神经网络损失动态问题,证明了在 ReLU 激活函数下,NAG 算法可能只是以次线性的速度达到全局最小值,结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。
Oct, 2020
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
本文提出了一种基于结构引导的 Gauss-Newton 方法,用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构,通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数,方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中,为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵,用于高效迭代。实验证明,在合理的假设下,线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此,SgGN 方法自然地产生了一个有效的搜索方向,无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证,特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。
Apr, 2024
对梯度下降训练的神经网络的稳定性和泛化性进行研究,探讨不同网络缩放参数的影响,发现在稳定性和超参数化方面的一些新的规律,并证明了过度参数化的神经网络可以达到所需的风险水平。
May, 2023
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
May, 2024