深度学习中使用梯度下降法无法逼近极小值

Nov, 2023

深度学习中使用梯度下降法无法逼近极小值

Non-approximability of constructive global $\mathcal{L}^2$ minimizers by gradient descent in Deep Learning

Thomas Chen, Patricia Muñoz Ewald

TL;DR我们分析了深度学习网络中梯度下降算法的几何方面。具体而言，我们证明了对于欠参数的 ReLU 深度学习网络，Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此，我们得出结论，Chen-Munoz Ewald 2023 论文中介绍的方法与梯度下降方法是不相同的。

Abstract

We analyze geometric aspects of the gradient descent algorithm in Deep Learning (DL) networks. In particular, we prove that the globally minimizing weights and biases for the $\mathcal{L}^2$ cost obtained constru

geometric aspects gradient descent algorithm deep learning networks underparametrized relu dl networks method introduced

发现论文，激发创造

通过几何调整的梯度下降在深度学习中实现全局 L2 最小化

考虑在深度学习网络中广泛使用的用于最小化 L^2 损失函数的梯度下降流，我们介绍了两个修改版本；一个适用于过参数化设置，另一个适用于欠参数化设置。两者均具有清晰且自然的不变几何意义，考虑到过参数化设置中的拉回向量丛结构和欠参数化设置中的推前向量丛结构。在过参数化情况下，我们证明，只要满足一个秩条件，所有修改后的梯度下降轨道都以统一指数收敛速度将 L^2 成本驱动到其全局最小值。我们指出了后者与次黎曼几何的关系。

Nov, 2023

深度学习网络的几何结构和全局 L^2 最小化器的构建

用几何方法解释了 Deep Learning（DL）网络的结构，包括 L 个隐藏层、坡度激活函数、L2 Schatten 类（或 Hilbert-Schmidt）成本函数以及相等维度的输入输出空间 R^Q。隐藏层在空间 R^Q 上定义，并且用于通过递归应用截断映射来筛选训练输入。此外，找到了成本函数的 2^Q-1 个不同退化局部最小值。

Sep, 2023

深层 ReLU 神经网络在逐步可分数据上的可解释全局极小值

明确构建了零损失神经网络分类器，以累积参数来表示权重矩阵和偏差向量，在输入空间上递归地作用于截断映射，针对训练数据的配置包括小且良好分离的聚类和可线性分离的等价类，最佳情况下在 M 维空间的 Q 个类别数据中，全局最小化能够用 Q (M+2) 个参数来描述。

May, 2024

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

浅层神经网络的几何结构与 L2 代价最小化构建

提供了一个浅层神经网络的结构的几何解释，该网络具有一个隐藏层、一个斜坡激活函数、一个 L2 Schatten 类（或 Hilbert-Schmidt）代价函数、输入空间 R^M、输出空间 R^Q（其中 Q≤M），以及训练输入样本大小 N>QM，并且以 O (δ_P) 的阶数证明了成本函数的最小值的一个上界，其中 δ_P 度量了训练输入的信噪比。通过使用投影来适应于属于相同输出向量 y_j（其中 j = 1、…、Q）的训练输入向量的平均值 x_0,j，获得了一个近似优化器，并且在特殊情况 M = Q 下，我们明确确定了成本函数的一个精确退化局部最小值，其尖锐值与 QM 得到的上界相差一个相对误差 O (δ_P^2)，所得到的上界的证明得到了一个建设性训练的网络；我们展示它度量了由 x_0,j（其中 j = 1、…、Q）张成的输入空间 R^M 中的 Q 维子空间。我们还对给定上下文中成本函数的全局最小值的特征进行了评论。

Sep, 2023

可微几何深度学习的通用逼近定理

本文主要研究基于几何深度学习 (GDL) 框架的通用前馈神经网络的构建方法，用于处理非欧几里得数据，并得出了一些曲率相关的下界和上界等结论。同时，文章给出了可以保证该方法不失效的数据相关条件。

Jan, 2021

单变量 ReLU 网络中稳定的极小值无法过拟合：大步长的泛化

我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论，证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下，梯度下降算法可以找到表示平滑函数的局部极小值，并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证，表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究，并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。

Jun, 2024

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

梯度下降学习一层卷积神经网络：不必担心虚假局部极小值

研究了在卷积层和 ReLU 激活下的一层神经网络的学习问题，证明了随机初始化并使用归一化权重的梯度下降可以恢复真实参数，但存在虚假局部最小值，且该局部最小值在梯度下降的动力学中起到了重要作用。

Dec, 2017

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019