梯度下降中的简约法则用于学习深度线性网络

Jun, 2023

梯度下降中的简约法则用于学习深度线性网络

The Law of Parsimony in Gradient Descent for Learning Deep Linear Networks

Can Yaras, Peng Wang, Wei Hu, Zhihui Zhu, Laura Balzano...

TL;DR研究了深线性网络的学习动态，发现梯度下降的内在偏差与节俭的解决方案有关，特别地，当数据具有低维结构时，只在每个权重矩阵的一个小不变子空间内进行学习，从而提高了效率和理解深度学习。

Abstract

Over the past few years, an extensively studied phenomenon in training deep networks is the implicit bias of gradient descent towards parsimonious solutions. In this work, we investigate this phenomenon by narrowing our focus to →

deep linear networks gradient descent low-dimensional structures learning dynamics representation learning

发现论文，激发创造

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

深度矩阵分解的梯度下降算法：动力学和从低秩隐含的偏差

本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性，在线性网络和估计问题上，分析梯度下降中的 “有效秩” 动态变化，提出了矩阵低秩投影的有效秩，为理解深度学习奠定了基础。

Nov, 2020

回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值

神经网络的海森矩阵的最大特征值（或清晰度）是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大，但不可以任意小。事实上，我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质，这是梯度下降的极限情况，学习率趋于零。我们证明了对于平坦最小值的隐式正则化：最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数，而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化，我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化，我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果，并将其与非零学习率的梯度下降联系在一起。

May, 2024

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

深度学习理论 III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018