Feb, 2024

对角化 SGD:通过参数重设和平滑实现快速与收敛的非可微模型 SGD

TL;DR介绍了一种针对非可微模型的新型随机梯度下降(SGD)方法,利用渐进平滑逼近方法提高了渐进平滑逼近的精度,并证明了收敛到原始目标的固定点,在实验中表现出了简单、快速、稳定的特点,并实现了工作归一化方差的数量级降低。