BriefGPT.xyz
Jun, 2021
非凸随机优化中重尾的高概率界限
High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails
HTML
PDF
Ashok Cutkosky, Harsh Mehta
TL;DR
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失引发的问题进行讨论。
Abstract
We consider non-convex
stochastic optimization
using first-order algorithms for which the gradient estimates may have heavy tails. We show that a combination of
gradient clipping
,
→