神经网络超参数化区域之外的新型核模型和精确表示器理论

May, 2024

神经网络超参数化区域之外的新型核模型和精确表示器理论

Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime

Alistair Shilton, Sunil Gupta, Santu Rana, Svetha Venkatesh

TL;DR这篇论文提出了两种适用于任意宽度、深度和拓扑结构的神经网络的模型及其训练方法，假设神经激活仅存在有限能量，并提出了一种基于矩阵核的神经网络的新颖表达器理论。其中，第一种模型是精确的且全局的模型，将神经网络看作是再生核 Banach 空间中的元素；第二种模型是精确的且局部的模型，将神经网络函数的变化建模为权重和偏差（即训练步骤）在再生核 Hilbert 空间中的局部内在神经核。该局部模型通过对网络自适应的 Rademacher 复杂度提供洞察力。此外，还证明了神经切向核 (NTK) 是局部内在神经核的一阶近似。最后，针对技术原因，本论文提出了一个准确的新颖表达器理论，用于层间神经网络在未正则化梯度下降的情况下进行训练，该理论基于局部外在神经核 (LeNK)。该表达器理论揭示了神经网络训练中高阶统计量的作用以及核演化对神经网络核模型的影响。在整篇论文中，使用前馈 ReLU 网络和残差网络 (ResNet) 作为说明性例子。

Abstract

This paper presents two models of neural-networks and their training applicable to neural networks of arbitrary width, depth and topology, assuming only finite-energy neural activations; and a novel representor t

neural networks training reproducing kernel rademacher complexity local-intrinsic neural kernel

发现论文，激发创造

有限分类模型的精确核等价性

我们通过从梯度下降训练的任何有限大小参数化分类模型中推导出的首个完全表示，探索了神经网络和核方法之间的等价性，并将我们的精确表示与著名的神经切向核 (NTK) 进行比较，并讨论相对于 NTK 和其他非精确路径核公式的近似误差。我们通过实验证明，该核能够以机器精度计算实现，并利用该精确核展示我们的理论贡献能够为神经网络所作的预测提供有用的洞察，特别是它们的泛化方式。

Aug, 2023

过参数化神经网络的一致泛化界

本文介绍了神经网络中过度参数化情况下的泛化误差及其相关的新理论，即神经切向核理论，通过该理论的信息获取量计算出学习问题的复杂度并证明了泛化误差的上界，同时讨论了该理论对于强化学习领域的应用。

Sep, 2021

将神经网络训练为学习数据自适应核函数：可证明的表示和逼近优势

利用动态再生核赋范空间方法研究神经网络的逼近和表示优势，证明其自适应核函数表示比经典非参数方法中的预先指定的固定基础表示更具优势，同时通过渐进正则化说明其渐进收敛性。

Jan, 2019

修复 NTK：从神经网络线性化到精确的凸规划

该研究旨在解释门控 ReLU 网络的凸规划问题并建立其与神经切向核（NTK）之间的联系，通过迭代重新加权来提高 NTK 引导的权重以获得最优的多核学习（MKL）核，该核等同于凸规划问题的解，并提供了对最优核的预测误差的分析结果，并通过群套索的一致性结果进行验证。

Sep, 2023

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

多层随机特征和神经网络的逼近能力

神经网络架构、随机初始化权重、神经网络高斯过程核、再生核希尔伯特空间、逼近误差是该研究论文的关键词，论文提出了一种在无限宽度限制下具有随机初始化权重的神经网络架构，它等价于一个具有高斯随机场协方差函数的神经网络高斯过程核，同时证明了该神经网络架构可以逼近由该核定义的再生核希尔伯特空间中的函数。实验结果验证了该理论发现的可行性。

Apr, 2024

关于过拟合两层神经切向核模型的泛化能力

本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核（NTK）模型的 min（L2）-norm 过拟合解的泛化性能，并显示随着神经元数目 p 的增加，测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双峰现象” 的特征。

Mar, 2021

正则化的重要性：神经网络的泛化和优化与其引导的核函数

通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具，我们发现标准 l2 正则化器在实际应用中具有很大优越性，并且通过构造一个简单的 d 维数据集，我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功，而对于无正则化器的 NTK 神经网络，则需要至少 Omega (d^2) 的数据才能训练成功。同时，我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器，并且能够得到全局最优解。

Oct, 2018

线性化神经网络在泛化方面的实际表现

该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较，提供了强有力的实证证据来确定近似的实际有效性，发现网络并不总是表现优于其核近似，并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外，研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。

Jun, 2021

深度神经网络正则化的核视角

通过使用再生核希尔伯特空间的范数作为正则化深度神经网络的新视角来提高学习效果，并提出了一些新的有效的正则化策略，实验结果表明这种方法在小数据集或对抗鲁棒性较高的模型上都取得了很好的效果。

Sep, 2018