深度线性分类中的隐式偏见：初始化规模与训练准确性

Jul, 2020

深度线性分类中的隐式偏见：初始化规模与训练准确性

Implicit Bias in Deep Linear Classification: Initialization Scale vs Training Accuracy

Edward Moroshko, Suriya Gunasekar, Blake Woodworth, Jason D. Lee, Nathan Srebro...

TL;DR研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究，揭示了 “核” 与非 “核”（“丰富” 或 “活跃”）状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制，结果表明，梯度下降的某些极限行为仅在荒谬的训练精度（远远低于 $10^{-100}$）时才能发挥作用。此外，在合理的初始化尺度和训练精度下，隐式偏差更为复杂，超出了这些极限的范畴。

Abstract

We provide a detailed asymptotic study of gradient flow trajectories and their implicit optimization bias when minimizing the exponential loss over "→

gradient flow trajectories exponential loss diagonal linear networks kernel implicit bias

发现论文，激发创造

初始化形状的隐式偏差：超越无穷小的镜像下降

本文重点研究了神经网络初始化的尺度问题，发现相对大小和比例关系对最终模型的构建具有重要作用。进而提出了一种新技术求解渐进优化在不同情形下的隐式正则化方法。

Feb, 2021

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

深度线性网络中初始化对隐性偏差的作用

该研究聚焦于探索深度学习中的隐含偏差现象，具体研究了权重初始化对优化和泛化问题的影响，通过调查使用深度网络解决欠定线性系统问题时初始化的隐式正则化的作用，有助于更全面地理解深度学习的性能特点。

Feb, 2024

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

可导编程中的懒惰训练

本文通过理论分析和数值实验，证明了惰性训练现象不仅仅局限于过度参数化的神经网络，同时也适用于其他优化问题，然而，在计算机视觉中，惰性训练并不适用于深度卷积神经网络的训练，这使得惰性训练很可能不是神经网络在高维任务中成功的原因之一。

Dec, 2018

线性模型和两层线性卷积神经网络中批归一化的隐式偏差

本论文研究了批归一化在梯度下降中的隐性偏差，证明了学习用批归一化的线性模型进行二进制分类时，梯度下降会以 $exp（-Ω（log^2 t））$ 收敛到训练数据上的均匀边缘分类器。这将批归一化的线性模型与不带批归一化的模型区分开来，其隐性偏差类型和收敛速率都不同。论文还将结果扩展到一类二层，单滤波器线性卷积神经网络，并证明批归一化隐含着对逐块均匀边缘的偏离。论文在两个例子中表明，对于某些学习问题，逐块均匀边缘分类器可以胜过最大边缘分类器。这些结果有助于更好地理解批归一化。

Jun, 2023

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019