NIPSMay, 2018
使用最优传输理论分析过参数化模型上梯度下降的全局收敛性
On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport
Lenaic Chizat, Francis Bach
TL;DR利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化,特别是在使用单个隐藏层的神经网络进行训练时,可通过 Wasserstein 梯度流达到全局最小值。