Apr, 2024

深度神经网络的变分随机梯度下降

TL;DR将梯度更新建模为概率模型并利用随机变分推断(SVI)推导出一种高效且有效的更新规则,该方法称为变分随机梯度下降(VSGD)优化器,相较于 Adam 和 SGD,VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。