神经网络的近似和梯度下降训练

May, 2024

Approximation and Gradient Descent Training with Neural Networks

G. Welper

TL;DR通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

Abstract

It is well understood that neural networks with carefully hand-picked weights provide powerful function approximation and that they can be successfully trained in over-parametrized regimes. Since →

neural networks over-parametrization function approximation gradient flow network training

发现论文，激发创造

梯度下降训练的神经网络的近似结果

用梯度流训练具有近似保证的神经网络对目标进行测量，并在连续的带状 d 维单位球上用 L2 正规化，网络为全连接的常数深度和增加的宽度，基于神经切向核（NTK）对非凸倒数第二层的分析，呈现出欠参数化的状态以满足近似所需的自然平滑性假设。

Sep, 2023

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

过参数神经网络优化算法的动力学视角

本研究通过分析神经网络与算法优化之间的关系，探讨了近期许多工作都关注的神经网络损失动态问题，证明了在 ReLU 激活函数下，NAG 算法可能只是以次线性的速度达到全局最小值，结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。

Oct, 2020

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

神经网络可以使用梯度下降学习表示

本研究揭示了神经网络在训练表示学习和迁移学习方面的优势，并通过学习与目标任务相关的表示来说明为什么在实践中神经网络明显优于与之相关的核方法。

Jun, 2022

深度神经网络近似理论

本文通过深度神经网络的 Kolmogorov 最优化来发展其基本极限，并阐述了深度网络对于不同函数类的 Kolmogorov 最优逼近性，其提供了指数级的逼近精度，并且在逼近足够光滑的函数时，相较于有限宽深网络，有限宽深层网络需要更小的连通性。

Jan, 2019