通过Łojasiewicz--Simon 不等式连续深度学习模型的收敛性结果

Nov, 2023

通过Łojasiewicz--Simon 不等式连续深度学习模型的收敛性结果

A Convergence result of a continuous model of deep learning via Łojasiewicz--Simon inequality

Noboru Isobe

TL;DR这篇研究通过建立和证明一个 Wasserstein 类型的梯度流，分析了深度神经网络模型的优化过程，证明了在 L2 正则化下该模型平均损失函数的最小化存在性和损失函数斜率的最大化存在性，最终得出随着时间推移，该流收敛到损失函数的临界点的结论，为非凸泛函的 Wasserstein 类型梯度流的渐近行为分析提供了新的方法。

Abstract

This study focuses on a wasserstein-type gradient flow, which represents an optimization process of a continuous model of a deep neural network

wasserstein-type gradient flow deep neural network optimization process asymptotic behavior nonconvex functionals

发现论文，激发创造

用切片瓦烏希斯坦損失函數訓練神經網絡的 SGD 收斂

优化传输（Optimal Transport）近年来引发了广泛兴趣，尤其是由于 Wasserstein 距离的提出，该距离提供了一种几何上合理且直观的比较概率测度的方式。为了解决计算问题，引入了切片 Wasserstein（SW）距离作为 Wasserstein 距离的替代方法，并在训练生成型神经网络（NNs）中得到应用。本文旨在弥补对于这一观察结果没有理论保证的空白，通过利用 Bianchi 等人（2022）关于 SGD 在非光滑和非凸函数上收敛性的最新工作，提供了 SW loss 函数对 NN 参数收敛的现实背景。具体而言，我们展示了随着步长的减小，这些轨迹逐渐接近（亚）梯度流方程的集合。在更严格的假设下，我们证明了一种更强的收敛结果，即轨迹的长期极限逼近损失函数的广义驻点集合。

Jul, 2023

深度学习中的方向收敛和对齐

本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛，并阐述了相应的研究内容，包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。

Jun, 2020

深度神经网络在局部 Lajasiewicz 条件下随机梯度下降的收敛

在考虑非凸目标函数的随机梯度下降的情况下，我们扩展了 Chatterjee（2022）的全局收敛结果。我们证明，如果我们初始化到一个局部区域，其中 Lajasiewicz 条件成立，那么在该局部区域内，具有正概率的随机梯度迭代会收敛到全局最小值，并且我们的证明的关键组成部分是确保 SGD 的整个轨迹以正概率留在局部区域内。为此，我们假设 SGD 噪声与目标函数成比例，称为机器学习噪声，并可在许多实际示例中实现。此外，我们提供了一个负面的论据，以表明使用类似于 Robbins-Monro 类型步长的有界噪声是不足以保持主要组成部分有效的。

Apr, 2023

通过 Wasserstein 空间中的近端梯度下降实现基于流的生成模型的收敛

通过使用渐进流模型 JKO 流模型，在生成数据方面提供了理论保证，证明了其数据生成能力的 KL 保证在一些条件下的收敛速度为 O (ε^2)。

Oct, 2023

神经梯度下降上升的均场分析：应用于功能条件矩方程

通过研究定义在无限维函数类上的极小极大优化问题，我们限定函数在过度参数化的两层神经网络类上，并研究（i）梯度下降 - 上升算法的收敛性和（ii）神经网络的表示学习。

Apr, 2024

双层神经网络中二阶动态的全局收敛性

通过 Lyapunov 法证明了在 momentum 策略下的 fully connected neural networks 的 heavy ball method 对应的二阶梯度下降算法在平均场极限下收敛于全局最优解。

Jul, 2020

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

大规模 Wasserstein 梯度流

本研究介绍了一种基于输入凸神经网络的渐进 Wasserstein 流逼近方法，无需领域离散化或粒子模拟，可用于机器学习应用，例如非线性滤波。

Jun, 2021

通过最小化 Wasserstein-2 损失进行生成建模

通过最小化二阶 Wasserstein 损失（即 $W_2$ 损失），该论文处理无监督学习问题。论文证明了方式一通过分布相关的常微分方程（ODE）动力学的超限势潜力近似估计当前分布与真实数据分布之间的关系。主要结果显示 ODE 的时变边界概率收敛到真实数据分布。为了证明 ODE 具有唯一解，首先明确构造了与关联的非线性 Fokker-Planck 方程相关的解，并证明它与 $W_2$ 损失的唯一梯度流相吻合。基于此，通过 Trevisan 的叠加原理和指数收敛结果，构建了 ODE 的唯一解。该论文提出了一个分布相关 ODE 的欧拉方案，并在极限情况下正确恢复了 $W_2$ 损失的梯度流。通过遵循该方案和应用持久训练，设计了一个算法，其自然地适用于梯度流框架。在低维和高维实验中，我们的算法通过适当增加持久训练水平，比 Wasserstein 生成对抗网络收敛更快且性能更好。

Jun, 2024

使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化，特别是在使用单个隐藏层的神经网络进行训练时，可通过 Wasserstein 梯度流达到全局最小值。

May, 2018