浅层一元 ReLU 网络的梯度动力学

Jun, 2019

Gradient Dynamics of Shallow Univariate ReLU Networks

Francis Williams, Matthew Trager, Claudio Silva, Daniele Panozzo, Denis Zorin...

TL;DR本文介绍了在一个维度输入下，解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究，阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定，同时还研究了两种学习模式：核函数和自适应函数，以及它们所对应的性质。

Abstract

We present a theoretical and empirical study of the gradient dynamics of overparameterized shallow relu networks with one-dimensional input, solving least-squares interpolation. We show that the →

overparameterized networks gradient dynamics relu networks kernel regime adaptive regime

发现论文，激发创造

通过浅层 ReLU 网络学习神经元：相关输入的动力学和隐式偏置

通过训练一个从一个小初始值开始的任意宽度的一层 ReLU 神经网络来证明，对于学习单个神经元的基本回归任务，该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。

Jun, 2023

浅层 ReLU 网络中最小稳定性的隐含偏差

本文探讨使用随机梯度下降法训练具有 ReLU 网络的单隐藏层多元网络应用于二次损失下所得到解的性质，得到其 Laplacian 的类似结果。结果表明，当步长增大时，网络映射函数二阶导数有界性的界限变小，即使用更大的步长会导致更平稳的预测器，最后，本文证明了如果函数在 Sobolev 意义下足够平滑，则可以使用相应于梯度下降稳定解的 ReLU 浅层网络任意逼近。

Jun, 2023

单神经元 ReLU 网络的支持向量和梯度动态

通过研究单神经元 ReLU 网络的梯度流动力学，发现了支持向量的隐式偏差，这在解释 ReLU 网络为何具有良好的泛化能力中起着关键作用；此外，证明了对于二维情况下单个神经元的全局收敛性，并分析了在梯度流的条件下学习权重范数的严格增长。

Feb, 2022

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

梯度下降量化 ReLU 网络特征

研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Mar, 2018

ReLU 网络在核区域中的深浅等效性

本文研究深度全连接网络从可近似角度看与其两层浅神经网络等价，表明其泛化能力在某些方面受限于核函数框架，提出一种基于核函数的特征值分析方法。

Sep, 2020

使用过参数化的浅层 ReLU 神经网络进行非参数回归

对于从某些光滑函数类中学习函数的任务，如果权重限制或正则化得当，超参数化神经网络可以实现最小极值收敛率 (加上对数因子)。

Jun, 2023

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

浅层 ReLU$^k$ 神经网络的最优逼近速率及其在非参数回归中的应用

研究了一些与浅层 ReLU$^k$ 神经网络相对应的变分空间的近似容量，证明了这些空间包含充分平滑的函数与有限变化范数。此外，还建立了以变化范数为基础的逼近率与神经元数量的最佳逼近率，并且证明了浅层 ReLU$^k$ 神经网络可以实现学习 H"older 函数的极小极值速率，而过参量化 (深或浅) 神经网络可以实现非参数回归的几乎最优速率。

Apr, 2023

单变量 ReLU 网络中稳定的极小值无法过拟合：大步长的泛化

我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论，证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下，梯度下降算法可以找到表示平滑函数的局部极小值，并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证，表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究，并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。

Jun, 2024