使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

NIPSMay, 2018

使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport

Lenaic Chizat, Francis Bach

TL;DR利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化，特别是在使用单个隐藏层的神经网络进行训练时，可通过 Wasserstein 梯度流达到全局最小值。

Abstract

Many tasks in machine learning and signal processing can be solved by minimizing a convex function of a measure. This includes sparse spik

machine learning signal processing convex function neural network training wasserstein gradient flows

发现论文，激发创造

过度参数化梯度下降对度量的稀疏优化

使用重点理论工具，在 Wasserstein 空间中进行局部收敛分析和扰动镜像下降分析，通过将度量离散化并运行非凸梯度下降来解决衡量函数的稀疏性惩罚问题，实现全局优化算法，其复杂度与凸多项式相比在所期望的精度下具有 log（1/ε）的比例关系

Jul, 2019

无限集合的随机粒子梯度下降

本文提出了一种新的集成学习方法，使用概率度量空间，可以严格处理 $L^1$ 约束和非负约束，通过基模型的传输图参数化来学习概率度量，从而获得无限集成，具有快速的收敛率和局部最优性质。

Dec, 2017

熵方案在最优输运和梯度流中的收敛性

本文证明了熵正则化最优输运问题的 Gamma 收敛性，并证明了隐式步骤按熵正则化距离时收敛于原始梯度流，证明了压缩后的最优输运计划收敛于最优输运计划，这表明了压缩后的熵正则化最优输运计划在熵消失时收敛于最优输运计划。

Dec, 2015

理解具有条件最优输运的无限深度和宽度的 ResNet 的训练

该研究探讨深度神经网络训练中的梯度流收敛问题，并提出了一种基于条件最优传输距离的训练模型，通过梯度流方程的良定性和多项式 - Lojasiewicz 分析证明了在适当的初始化条件下，梯度流可以收敛于全局极小值。

Mar, 2024

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

梯度流与最优输运的讲义

本文简要阐述了在度量空间中梯度流的最强变分形式及其在概率测度的 Wasserstein 空间中扩散方程的应用，这些笔记是第二作者在 2009 年 6 月 22 日至 26 日的格勒诺布尔夏季学校 “最优输运：理论与应用” 中所作的一系列讲座的基础。

Sep, 2010

通过输入凸神经网络实现最优传输映射

本文提出了一种新的、原则性的方法来从样本中学习两个分布之间的最优传输，学习方法基于最优传输理论并涉及解决一个新的极小极大优化问题，通过最优 Kantorovich 势量级诱导最优传输映射，借鉴最近在输入凸型神经网络领域的进展，提出了一个新的框架，其中一个凸函数的梯度表示最优传输映射。数值实验表明，我们学习到了最优传输映射，这一方法确保我们发现的传输映射独立于神经网络的初始化方式。而且，由于凸函数的梯度自然地模拟了不连续的传输映射，因此可以轻松捕捉具有不连续支持的目标分布。

Aug, 2019

小批量 Wasserstein 学习：渐近和梯度特性

本文对最优传输距离的使用进行了探索，指出在大规模数据集上计算这些距离的方法是通过平均几个较小的最优传输问题的结果。我们论证了这种方法等效于原问题的隐式正则化，并具有无偏估计，梯度和期望值周围的集中度约束等吸引人的属性。同时我们还开展了梯度流、GAN 或颜色转换等经验实验，以突出这种策略的实际价值。

Oct, 2019

用切片瓦烏希斯坦損失函數訓練神經網絡的 SGD 收斂

优化传输（Optimal Transport）近年来引发了广泛兴趣，尤其是由于 Wasserstein 距离的提出，该距离提供了一种几何上合理且直观的比较概率测度的方式。为了解决计算问题，引入了切片 Wasserstein（SW）距离作为 Wasserstein 距离的替代方法，并在训练生成型神经网络（NNs）中得到应用。本文旨在弥补对于这一观察结果没有理论保证的空白，通过利用 Bianchi 等人（2022）关于 SGD 在非光滑和非凸函数上收敛性的最新工作，提供了 SW loss 函数对 NN 参数收敛的现实背景。具体而言，我们展示了随着步长的减小，这些轨迹逐渐接近（亚）梯度流方程的集合。在更严格的假设下，我们证明了一种更强的收敛结果，即轨迹的长期极限逼近损失函数的广义驻点集合。

Jul, 2023

使用正则化最优传输训练 GAN 的收敛性和鲁棒性

本文通过基于正则化最优传输的平滑 Wasserstein GAN 公式实现梯度信息的获取，从而实现对该目标函数的一阶优化，为一类生成对抗网络优化算法建立了理论收敛保证，且仅需要解决鉴别器问题以近似最优。该算法计算效率高，应用于 MNIST 数字以及 CIFAR-10 图像数据集相比其他同等架构和计算能力的算法生成的图像效果显著。

Feb, 2018