线性神经网络训练中隐性偏差的统一视角

ICLROct, 2020

线性神经网络训练中隐性偏差的统一视角

A Unifying View on Implicit Bias in Training Linear Neural Networks

Chulhee Yun, Shankar Krishnan, Hossein Mobahi

TL;DR研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Abstract

We study the implicit bias of gradient flow (i.e., gradient descent with infinitesimal step size) on linear neural network training. We propose a tensor formulation of →

implicit bias gradient flow neural networks convergence direction tensor formulation

发现论文，激发创造

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

线性模型和两层线性卷积神经网络中批归一化的隐式偏差

本论文研究了批归一化在梯度下降中的隐性偏差，证明了学习用批归一化的线性模型进行二进制分类时，梯度下降会以 $exp（-Ω（log^2 t））$ 收敛到训练数据上的均匀边缘分类器。这将批归一化的线性模型与不带批归一化的模型区分开来，其隐性偏差类型和收敛速率都不同。论文还将结果扩展到一类二层，单滤波器线性卷积神经网络，并证明批归一化隐含着对逐块均匀边缘的偏离。论文在两个例子中表明，对于某些学习问题，逐块均匀边缘分类器可以胜过最大边缘分类器。这些结果有助于更好地理解批归一化。

Jun, 2023

隐式偏差对于对角线线性网络 SGD 的影响：随机性的证明性效益

本文研究了随机梯度下降在对角线线性网络上的动态规律，证明了它比梯度下降的解具有更好的泛化性能，并发现收敛速度控制偏见效应的大小，结果支持了结构化噪声可以引起更好泛化性能的理论结论。

Jun, 2021

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

深度学习中的方向收敛和对齐

本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛，并阐述了相应的研究内容，包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。

Jun, 2020

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

线性卷积网络中梯度下降的隐性偏差

本研究通过使用梯度下降法在全宽线性卷积网络上的实验，证明它在深度为 L 时收敛于一个与频域中的 L2/L bridge penalty 相关的线性预测器。与此相反，对于线性全连接网络，无论深度如何，梯度下降法都收敛于硬边界的线性支持向量机解。

Jun, 2018

学习深度线性神经网络：黎曼梯度流与全局极小值的收敛

本文研究了与从数据中学习深度线性神经网络（其中激活函数为恒等映射）相关的梯度流的收敛性，结果表明梯度流总是收敛于潜在函数的临界点。

Oct, 2019

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

梯度下降训练的神经网络的近似结果

用梯度流训练具有近似保证的神经网络对目标进行测量，并在连续的带状 d 维单位球上用 L2 正规化，网络为全连接的常数深度和增加的宽度，基于神经切向核（NTK）对非凸倒数第二层的分析，呈现出欠参数化的状态以满足近似所需的自然平滑性假设。

Sep, 2023