线性模型和两层线性卷积神经网络中批归一化的隐式偏差

Jun, 2023

线性模型和两层线性卷积神经网络中批归一化的隐式偏差

The Implicit Bias of Batch Normalization in Linear Models and Two-layer Linear Convolutional Neural Networks

Yuan Cao, Difan Zou, Yuanzhi Li, Quanquan Gu

TL;DR本论文研究了批归一化在梯度下降中的隐性偏差，证明了学习用批归一化的线性模型进行二进制分类时，梯度下降会以 $exp（-Ω（log^2 t））$ 收敛到训练数据上的均匀边缘分类器。这将批归一化的线性模型与不带批归一化的模型区分开来，其隐性偏差类型和收敛速率都不同。论文还将结果扩展到一类二层，单滤波器线性卷积神经网络，并证明批归一化隐含着对逐块均匀边缘的偏离。论文在两个例子中表明，对于某些学习问题，逐块均匀边缘分类器可以胜过最大边缘分类器。这些结果有助于更好地理解批归一化。

Abstract

We study the implicit bias of batch normalization trained by gradient descent. We show that when learning a linear model with batch normalization

implicit bias batch normalization linear models convergence rate convolutional neural networks

发现论文，激发创造

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

线性卷积网络中梯度下降的隐性偏差

本研究通过使用梯度下降法在全宽线性卷积网络上的实验，证明它在深度为 L 时收敛于一个与频域中的 L2/L bridge penalty 相关的线性预测器。与此相反，对于线性全连接网络，无论深度如何，梯度下降法都收敛于硬边界的线性支持向量机解。

Jun, 2018

两层神经网络的梯度下降：边界最大化和简化偏差

本文研究了 Leaky ReLU 神经网络的全局最优性，证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解，同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。

Oct, 2021

深度线性分类中的隐式偏见：初始化规模与训练准确性

研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究，揭示了 “核” 与非 “核”（“丰富” 或 “活跃”）状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制，结果表明，梯度下降的某些极限行为仅在荒谬的训练精度（远远低于 $10^{-100}$）时才能发挥作用。此外，在合理的初始化尺度和训练精度下，隐式偏差更为复杂，超出了这些极限的范畴。

Jul, 2020

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

线性等变网络的隐性偏差

本文研究群等变卷积神经网络，在训练时隐式地通过具体的架构对模型进行正则化处理来实现其显式的对称性偏置，从而实现模型的推广。同时，文中还提出了傅里叶空间隐式正则化模型的解释，并通过实验证明了该模型的有效性。

Oct, 2021

批归一化的指数收敛速率：在非凸优化中实现长度 - 方向解耦的力量

我们通过对多个机器学习实例进行研究，证明了 Batch Normalization 在优化任务中的加速效果源于其将参数长度和方向分开进行优化，针对这些机器学习问题，Batch Normalization 可以是一种收敛算法。

May, 2018

学习可分数据的两层神经网络的快速收敛

本文探讨了如何在两层神经网络上使用标准化的梯度下降算法，证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛，并讨论了凸性目标的归纳性及过拟合问题。

May, 2023

梯度下降最大化同质神经网络的边界

研究了梯度下降算法在同质神经网络中的隐式正则化，重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model，探讨了规范化边缘的平滑版本，形成了一个关于边缘最大化的优化问题，给出了算法的渐进性能，并讨论了通过训练提高模型鲁棒性的潜在好处。

Jun, 2019