优秀的规则性形成大学习率的隐式偏差：稳定性、平衡和推动力的边界

Oct, 2023

优秀的规则性形成大学习率的隐式偏差：稳定性、平衡和推动力的边界

Good regularity creates large learning rate implicit biases: edge of stability, balancing, and catapult

Yuqing Wang, Zhenghao Xu, Tuo Zhao, Molei Tao

TL;DR优化中的大学习率、隐性偏差、非凸优化、规则性和收敛理论之间的关系。

Abstract

large learning rates, when applied to gradient descent for nonconvex optimization, yield various implicit biases including the edge of stability (Cohen et al., 2021), balancing (Wang et al., 2022), and catapult (

large learning rates implicit biases nonconvex optimization regularity convergence theory

发现论文，激发创造

隐性偏见能否解释泛化问题？随机凸优化作为案例研究

本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响，提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在，并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题，说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。

Mar, 2020

学习深度同质模型中的算法正则化：层次自动平衡

证明了通过梯度下降（以及正步长）学习多层同质函数时，该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变，从而自动平衡所有层的大小，由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。

Jun, 2018

通过稳定的边界学习阈值神经元

本文研究了大学习率下神经网络训练的非凸性动态，证明了时的稳定性边界，并发现了控制阈值激活函数的第一层偏置和学习率之间的相互关系。

Dec, 2022

在稳定边缘处进行逻辑回归的梯度下降隐含偏差

本文研究了边缘稳定性（EoS）中逻辑回归上梯度下降（GD）的收敛和隐式偏差情况，证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失，并在最大间隔方向上趋于正无穷，在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量，而指数损失可能导致 GD 迭代在 EoS 区域内灾难性发散。

May, 2023

深度学习：统计观点

探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功，以及其之所以具有超预期的表现，推断是因为过度参数化可以让梯度方法寻找插值解，这些方法隐含地施加正则化，并且过度参数化导致了良性过拟合等基本原理构成了这个现象，同时摘要了最新的理论进展，重点考虑了神经网络的线性区域。

Mar, 2021

大学习率驯服同质性：收敛与平衡效应

本文研究了在一个均匀的矩阵分解问题上使用大学习率的梯度下降（GD）算法，证明了在迭代收敛过程中该算法具有收敛性，同时还发现了 GD 算法在使用大学习率时存在的偏差，被称为 'data balancing'，并提供数值实验支持我们的理论。

Oct, 2021

隐式梯度正则化

本文研究了梯度下降算法在优化神经网络时的表现，发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化，这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值，使解决方案对噪声参数扰动有很好的鲁棒性，这一理论有助于解决过拟合问题。

Sep, 2020

深度学习中稳定性边缘处的梯度下降理解

研究了神经网络训练中的难点问题 Edge of Stability，发现了一种新的内隐正则化机制，通过对最小化损失面的低维流动，提出对比以往对无穷小更新或梯度噪声的依赖。

May, 2022

随机梯度下降中隐式正则化的起源

本文研究随机梯度下降（SGD）的学习率对准确性的影响，证明当学习率适当大时，SGD 的迭代路径离梯度下降路径更近，这种现象可通过引入一个隐式正则化项进行解释，并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。

Jan, 2021

非凸统计估计中的隐式正则化：梯度下降在相位恢复、矩阵补全和盲源分离问题中线性收敛

研究非凸优化问题中梯度下降算法的隐式正则化特性，证明在多种统计模型中，梯度下降算法在没有显式正则化的情况下也能够实现正则化，并在相位恢复、低秩矩阵补全和盲反卷积等三个基本统计估计问题中实现近乎最优的统计和计算保证。

Nov, 2017