Nov, 2023

通过Łojasiewicz--Simon 不等式连续深度学习模型的收敛性结果

TL;DR这篇研究通过建立和证明一个 Wasserstein 类型的梯度流,分析了深度神经网络模型的优化过程,证明了在 L2 正则化下该模型平均损失函数的最小化存在性和损失函数斜率的最大化存在性,最终得出随着时间推移,该流收敛到损失函数的临界点的结论,为非凸泛函的 Wasserstein 类型梯度流的渐近行为分析提供了新的方法。