非光滑非凸优化中的随机放缩和动量

May, 2024

非光滑非凸优化中的随机放缩和动量

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Qinzi Zhang, Ashok Cutkosky

TL;DR通过在每个时间点对更新进行指数分布随机标量缩放的方式，我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。

Abstract

Training neural networks requires optimizing a loss function that may be highly irregular, and in particular neither convex nor smooth. Popular training algorithms are based on →