对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

Oct, 2023

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-orthogonal Data

Yiwen Kou, Zixiang Chen, Quanquan Gu

TL;DR針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Abstract

The implicit bias towards solutions with favorable properties is believed to be a key reason why neural networks trained by gradient-based optimization can generalize well. While the →

implicit bias neural networks gradient descent relu activation function stable rank

发现论文，激发创造

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

通过浅层 ReLU 网络学习神经元：相关输入的动力学和隐式偏置

通过训练一个从一个小初始值开始的任意宽度的一层 ReLU 神经网络来证明，对于学习单个神经元的基本回归任务，该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。

Jun, 2023

单神经元 ReLU 网络的支持向量和梯度动态

通过研究单神经元 ReLU 网络的梯度流动力学，发现了支持向量的隐式偏差，这在解释 ReLU 网络为何具有良好的泛化能力中起着关键作用；此外，证明了对于二维情况下单个神经元的全局收敛性，并分析了在梯度流的条件下学习权重范数的严格增长。

Feb, 2022

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018

深度 ReLU 隐式网络的全局收敛理论：基于过度参数化

本文分析了 ReLU 激活的隐式神经网络的梯度流，证明了如果隐式神经网络是超参数化的，那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值，这一结果与有限层参数超过的神经网络的收敛结果不同，因为本文的结论适用于无限层的神经网络。

Oct, 2021

两层神经网络的梯度下降：边界最大化和简化偏差

本文研究了 Leaky ReLU 神经网络的全局最优性，证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解，同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。

Oct, 2021

梯度下降最大化同质神经网络的边界

研究了梯度下降算法在同质神经网络中的隐式正则化，重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model，探讨了规范化边缘的平滑版本，形成了一个关于边缘最大化的优化问题，给出了算法的渐进性能，并讨论了通过训练提高模型鲁棒性的潜在好处。

Jun, 2019