神经切向核调节下随机梯度下降平均最优收敛速度

Jun, 2020

神经切向核调节下随机梯度下降平均最优收敛速度

Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

Atsushi Nitanda, Taiji Suzuki

TL;DR本文通过利用目标函数和 NTK 相关的函数空间的特殊属性，证明了平均随机梯度下降方法在 NTK 极限下能够取得最小极小化误差率，并利用 ReLU 网络的平滑逼近，使得可以在最优极小化误差率下学习 NTK 指定的目标函数。

Abstract

We analyze the convergence of the averaged stochastic gradient descent for overparameterized two-layer neural networks for regression problems. It was recently found that a neural tangent kernel (NTK) plays an im

averaged stochastic gradient descent neural tangent kernel overparameterized neural networks convergence rate relu network

发现论文，激发创造

神经正切核：神经网络的收敛性和泛化性

本研究证明了在梯度下降算法中，人工神经网络的演化可以被表示为一种核函数，称为神经切向核。它在无限宽度下收敛于一个明确的极限核，并且在训练过程中保持不变，可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明，在无限宽度下，网络函数 $f_ heta$ 在训练期间遵循线性微分方程。最后，我们对神经切向核进行了数值研究，观察了其在宽网络中的行为，并将其与无限宽度的极限进行了比较。

Jun, 2018

正则化的重要性：神经网络的泛化和优化与其引导的核函数

通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具，我们发现标准 l2 正则化器在实际应用中具有很大优越性，并且通过构造一个简单的 d 维数据集，我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功，而对于无正则化器的 NTK 神经网络，则需要至少 Omega (d^2) 的数据才能训练成功。同时，我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器，并且能够得到全局最优解。

Oct, 2018

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019

深度宽神经网络的统计最优性

本文研究了深度神经网络的泛化能力问题，探讨了其与神经切向核回归的关系，并分析了核的谱性质，得出了多层宽神经网络使用梯度下降等算法在早期停止时能够获得最佳性能的结论。

May, 2023

通过草图和随机特征扩展神经切向核规模

该研究提出了一种近似算法，旨在加速使用神经切向核的大规模学习任务，并结合随机特征，通过谱逼近保证精度。实验结果表明，其线性回归器可在 CIFAR-10 数据集上达到与全精度模型相当的准确度，同时提高了 150 倍的速度。

Jun, 2021

一种用于替代梯度学习的广义神经切向核

研究了神经网络训练方法中激活函数导数不可用时的问题，提出了代理梯度学习（SGL）的理论基础，并利用神经切向核（NTK）的推广 —— 代理梯度 NTK 分析了 SGL，通过数值实验验证了 SGL 在具有有限宽度和符号激活函数的网络中的有效性。

May, 2024

神经切向核的归纳偏置

本研究分析了神经网络中梯度下降法的学习动态，发现学习过程受一个称为神经切向核的初始化方式所掌控，比较了该核与其他类似结构的核函数的平滑性、逼近性和稳定性等属性，并考察了卷积网络在图像变形下的稳定性。

May, 2019

我们需要多少个神经元？使用梯度下降算法训练的浅层网络的精细分析

我们在神经切向核（NTK）范围内对使用梯度下降（GD）训练的两层神经网络的泛化性质进行分析，对于早停止的 GD，我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度；在此过程中，我们准确地跟踪了泛化所需的隐藏神经元的数量，并改进了现有的结果；此外，我们进一步展示了在训练过程中，权重保持在初始化附近的一个领域内，该半径取决于回归函数的平滑度和与 NTK 相关的积分算子的特征值衰减等结构假设。

Sep, 2023

神经网络的近似和梯度下降训练

通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

May, 2024