BriefGPT.xyz
May, 2024
非光滑非凸优化中的随机放缩和动量
Random Scaling and Momentum for Non-smooth Non-convex Optimization
HTML
PDF
Qinzi Zhang, Ashok Cutkosky
TL;DR
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
Abstract
Training
neural networks
requires optimizing a
loss function
that may be highly irregular, and in particular neither convex nor smooth. Popular training algorithms are based on
→