通过几何调整的梯度下降在深度学习中实现全局 L2 最小化

Nov, 2023

通过几何调整的梯度下降在深度学习中实现全局 L2 最小化

Global $\mathcal{L}^2$ minimization with certainty via geometrically adapted gradient descent in Deep Learning

Thomas Chen

TL;DR考虑在深度学习网络中广泛使用的用于最小化 L^2 损失函数的梯度下降流，我们介绍了两个修改版本；一个适用于过参数化设置，另一个适用于欠参数化设置。两者均具有清晰且自然的不变几何意义，考虑到过参数化设置中的拉回向量丛结构和欠参数化设置中的推前向量丛结构。在过参数化情况下，我们证明，只要满足一个秩条件，所有修改后的梯度下降轨道都以统一指数收敛速度将 L^2 成本驱动到其全局最小值。我们指出了后者与次黎曼几何的关系。

Abstract

We consider the gradient descent flow widely used for the minimization of the $\mathcal{L}^2$ cost function in deep learning networks, and introduce two modified versions; one adapted for the →

gradient descent flow deep learning networks overparametrized setting underparametrized setting l^2 cost function

发现论文，激发创造

深度学习中使用梯度下降法无法逼近极小值

我们分析了深度学习网络中梯度下降算法的几何方面。具体而言，我们证明了对于欠参数的 ReLU 深度学习网络，Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此，我们得出结论，Chen-Munoz Ewald 2023 论文中介绍的方法与梯度下降方法是不相同的。

Nov, 2023

深度学习网络的几何结构和全局 L^2 最小化器的构建

用几何方法解释了 Deep Learning（DL）网络的结构，包括 L 个隐藏层、坡度激活函数、L2 Schatten 类（或 Hilbert-Schmidt）成本函数以及相等维度的输入输出空间 R^Q。隐藏层在空间 R^Q 上定义，并且用于通过递归应用截断映射来筛选训练输入。此外，找到了成本函数的 2^Q-1 个不同退化局部最小值。

Sep, 2023

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化，特别是在使用单个隐藏层的神经网络进行训练时，可通过 Wasserstein 梯度流达到全局最小值。

May, 2018

浅层神经网络的几何结构与 L2 代价最小化构建

提供了一个浅层神经网络的结构的几何解释，该网络具有一个隐藏层、一个斜坡激活函数、一个 L2 Schatten 类（或 Hilbert-Schmidt）代价函数、输入空间 R^M、输出空间 R^Q（其中 Q≤M），以及训练输入样本大小 N>QM，并且以 O (δ_P) 的阶数证明了成本函数的最小值的一个上界，其中 δ_P 度量了训练输入的信噪比。通过使用投影来适应于属于相同输出向量 y_j（其中 j = 1、…、Q）的训练输入向量的平均值 x_0,j，获得了一个近似优化器，并且在特殊情况 M = Q 下，我们明确确定了成本函数的一个精确退化局部最小值，其尖锐值与 QM 得到的上界相差一个相对误差 O (δ_P^2)，所得到的上界的证明得到了一个建设性训练的网络；我们展示它度量了由 x_0,j（其中 j = 1、…、Q）张成的输入空间 R^M 中的 Q 维子空间。我们还对给定上下文中成本函数的全局最小值的特征进行了评论。

Sep, 2023

学习深度线性神经网络：黎曼梯度流与全局极小值的收敛

本文研究了与从数据中学习深度线性神经网络（其中激活函数为恒等映射）相关的梯度流的收敛性，结果表明梯度流总是收敛于潜在函数的临界点。

Oct, 2019

利用随机初始化的黎曼梯度下降快速全局收敛的低秩矩阵恢复

本文提出了一种适用于 Riemann 流形上低秩矩阵恢复问题的新的全局分析框架，其中使用 Riemann 梯度下降算法最小化最小二乘损失函数，并研究了渐近行为以及精确收敛速率。

Dec, 2020

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

在黎曼流形上的均值随机梯度下降

本文提出了一个基于 Riemann 流形的梯度下降法以及一个几何性质框架，并探讨了如何将慢速收敛的结果转化为快速收敛结果。此外，我们将该框架应用于几何上强凸和欧几里得非凸问题，以及流式 $k$-PCA 问题，并展示了如何加速随机幂法的优化率。

Feb, 2018