深度宽神经网络的统计最优性
本文研究了 ReLU 激活函数下宽残差网络在球面上的泛化能力,并且证明了残差网络核(RNK)在宽度趋近于无穷时一致收敛于残差神经切向核(RNTK),最终说明了残差网络的泛化误差总是趋近于 RNTK 的核回归误差,而早停策略下的宽残差网络可以达到最优健壮性,同时也证明了无法对过度拟合数据的残差网络进行泛化。
May, 2023
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。
Sep, 2019
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具,我们发现标准 l2 正则化器在实际应用中具有很大优越性,并且通过构造一个简单的 d 维数据集,我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功,而对于无正则化器的 NTK 神经网络,则需要至少 Omega (d^2) 的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的 min(L2)-norm 过拟合解的泛化性能,并显示随着神经元数目 p 的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双峰现象” 的特征。
Mar, 2021
通过高斯过程和统计物理学的理论方法,我们得到了内核回归广义性能的分析表达式,这些表达式是关于训练样本数量的函数。我们的结果适用于具有广泛神经网络的情况,这是由于训练它们和使用神经切向核 (NTK) 的核回归之间的等效性。通过计算核的不同谱成分对总体泛化误差的分解,我们确定了一个新的谱原理:随着训练集大小的增长,核机和神经网络逐渐适应目标功能的更高频谱模式。当数据从高维超球面上的均匀分布中采样时,点积核,包括 NTK,显示出学习阶段,其中学习不同频率模式的目标函数。通过对合成数据和 MNIST 数据集的模拟,我们验证了我们的理论。
Feb, 2020
我们在神经切向核(NTK)范围内对使用梯度下降(GD)训练的两层神经网络的泛化性质进行分析,对于早停止的 GD,我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度;在此过程中,我们准确地跟踪了泛化所需的隐藏神经元的数量,并改进了现有的结果;此外,我们进一步展示了在训练过程中,权重保持在初始化附近的一个领域内,该半径取决于回归函数的平滑度和与 NTK 相关的积分算子的特征值衰减等结构假设。
Sep, 2023
本文介绍了神经网络中过度参数化情况下的泛化误差及其相关的新理论,即神经切向核理论,通过该理论的信息获取量计算出学习问题的复杂度并证明了泛化误差的上界,同时讨论了该理论对于强化学习领域的应用。
Sep, 2021