Jul, 2023

用切片瓦烏希斯坦損失函數訓練神經網絡的 SGD 收斂

TL;DR优化传输(Optimal Transport)近年来引发了广泛兴趣,尤其是由于 Wasserstein 距离的提出,该距离提供了一种几何上合理且直观的比较概率测度的方式。为了解决计算问题,引入了切片 Wasserstein(SW)距离作为 Wasserstein 距离的替代方法,并在训练生成型神经网络(NNs)中得到应用。本文旨在弥补对于这一观察结果没有理论保证的空白,通过利用 Bianchi 等人(2022)关于 SGD 在非光滑和非凸函数上收敛性的最新工作,提供了 SW loss 函数对 NN 参数收敛的现实背景。具体而言,我们展示了随着步长的减小,这些轨迹逐渐接近(亚)梯度流方程的集合。在更严格的假设下,我们证明了一种更强的收敛结果,即轨迹的长期极限逼近损失函数的广义驻点集合。