BriefGPT.xyz
Ask
alpha
关键词
zo-sgd
搜索结果 - 1
ZO-AdaMU 优化器:零阶优化中动量和不确定性的适应扰动
MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销,缺少动量正则化,而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题,收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。
PDF
6 months ago
Prev
Next