AI 中的隐式正则化遇到优化中的广义逼近难度 —— 关于对角线性网络的尖锐结果

Jul, 2023

AI 中的隐式正则化遇到优化中的广义逼近难度 —— 关于对角线性网络的尖锐结果

Implicit regularization in AI meets generalized hardness of approximation in optimization -- Sharp results for diagonal linear networks

PDF

Johan S. Wind, Vegard Antun, Anders C. Hansen

TL;DR该研究探讨深度学习和人工智能中神经网络结构和梯度优化方法所施加的隐式规则化作用，并通过研究 Diagonal Linear Networks (DLNs) 的梯度流在过参数化回归设置下的隐式规则化，解释了泛化难度的相变现象与基础追踪优化问题收敛的关系，并且提出了新的收敛界限及其初值大小与选取最小化者的联系。

Abstract

Understanding the implicit regularization imposed by neural network architectures and gradient based optimization methods is a key challenge in deep learning and AI. In this work we provide sharp results for the implicit regularization imposed by the →

implicit regularization neural networks gradient flow generalized hardness of approximation basis pursuit optimization

发现论文，激发创造

回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值

神经网络的海森矩阵的最大特征值（或清晰度）是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大，但不可以任意小。事实上，我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质，这是梯度下降的极限情况，学习率趋于零。我们证明了对于平坦最小值的隐式正则化：最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数，而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化，我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化，我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果，并将其与非零学习率的梯度下降联系在一起。

May, 2024

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

学习深度同质模型中的算法正则化：层次自动平衡

证明了通过梯度下降（以及正步长）学习多层同质函数时，该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变，从而自动平衡所有层的大小，由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。

Jun, 2018

由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化

研究采用随机梯度下降法训练的神经网络，通过对每一次迭代的训练标签进行独立噪声扰动，得到一个隐式正则化项，从而驱动网络向简单模型发展，并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。

Apr, 2019

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

基于约束狄利克雷能量最小化的隐式图神经扩散

设计基于参数化图拉普拉斯算子的隐式图扩散层，从而在节点和图分类任务中展现了强化的性能，通过减少超平滑问题，权衡平滑和节点特征信息的保持。

Aug, 2023

超参数化神经网络中的隐式正则化

本文通过引入梯度间隙偏差和梯度偏转等统计量，从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式，结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出，使其在样本之间直线插值且负责度较低。

Mar, 2019

隐式偏差对于对角线线性网络 SGD 的影响：随机性的证明性效益

本文研究了随机梯度下降在对角线线性网络上的动态规律，证明了它比梯度下降的解具有更好的泛化性能，并发现收敛速度控制偏见效应的大小，结果支持了结构化噪声可以引起更好泛化性能的理论结论。

Jun, 2021

关于学习超参数化神经网络的函数逼近视角

研究了使用梯度下降法在过度参数化的双层神经网络中训练，证明了在足够过度参数化的条件下，GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$，并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件，介绍了适用于球面上的多项式的一般结果的应用

May, 2019