神经网络的近似和梯度下降训练
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
使用神经切比洛夫核方法,获得了网络训练误差上限、网络大小不变的泛化误差上限,以及一个简单且解析的核函数,能够优于相关网络,但需要注意网络缩放因子的问题。本文对原有方法进行修正,提出了更加严格的误差上限,解决了缩放问题。
Jul, 2020
本研究通过分析神经网络与算法优化之间的关系,探讨了近期许多工作都关注的神经网络损失动态问题,证明了在 ReLU 激活函数下,NAG 算法可能只是以次线性的速度达到全局最小值,结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。
Oct, 2020
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
本文通过深度神经网络的 Kolmogorov 最优化来发展其基本极限,并阐述了深度网络对于不同函数类的 Kolmogorov 最优逼近性,其提供了指数级的逼近精度,并且在逼近足够光滑的函数时,相较于有限宽深网络,有限宽深层网络需要更小的连通性。
Jan, 2019