深度神经网络的变分随机梯度下降

Apr, 2024

深度神经网络的变分随机梯度下降

Variational Stochastic Gradient Descent for Deep Neural Networks

Haotian Chen, Anna Kuzina, Babak Esmaeili, Jakub M Tomczak

TL;DR将梯度更新建模为概率模型并利用随机变分推断（SVI）推导出一种高效且有效的更新规则，该方法称为变分随机梯度下降（VSGD）优化器，相较于 Adam 和 SGD，VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。

Abstract

Optimizing deep neural networks is one of the main tasks in successful deep learning. Current state-of-the-art optimizers are adaptive gradient-based optimization methods such as →

deep neural networks optimizers adam variational stochastic gradient descent (vsgd)stochastic variational inference (svi)

发现论文，激发创造

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

神经变分梯度下降

本文提出了一种基于神经网络的参数化证见函数的改进 Stein 变分梯度下降方法，旨在解决传统 Stein 变分梯度下降中选择核函数的难题，经实验证明该方法在合成推理问题、贝叶斯线性回归和贝叶斯神经网络推理问题中有效可行。

Jul, 2021

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

随机梯度下降在变分推断中的应用：深度网络收敛于极限环

SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定，但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项，但这个势能通常与原始损失函数不同。此外，我们表明 SGD 在经典意义下甚至不会收敛，因此这种 ' 失衡 ' 的行为是由于对于深度网络，SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。

Oct, 2017

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

VR-SGD: 一种简单的随机方差缩减机器学习方法

本文提出了一种名为 VR-SGD 的变体随机梯度下降法，其使用平均值和上一个时期的最后迭代作为两个向量，能够直接解决非光滑和 / 或非强凸问题，并能够使用更大的学习率。此方法在解决各种机器学习问题，如凸和非凸的经验风险最小化以及特征值计算等方面，具有更快的收敛速度。

Feb, 2018

随机梯度下降 - 上升：统一理论和新高效方法

本文提出了 SGDA 的统一收敛性分析框架，覆盖了各种随机梯度下降上升方法，并分别提出了多种新变体方法，通过大量数值实验证明了这些方法的重要性质。

Feb, 2022

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

通过深度展开加速 Stein 变分梯度下降的收敛

本文中提出了一种深度展开的可训练 SVGD 算法，用于加速其收敛速度，并通过数值模拟实验证明了该算法相较于传统的 SVGD 变体具有更快的收敛速度。

Feb, 2024

深度神经网络优化的进化随机梯度下降

该研究提出了一种基于人口的进化随机梯度下降（ESGD）框架来优化深度神经网络，该框架将 SGD 和基于梯度的进化算法作为互补算法，以提高种群的平均适应度。

Oct, 2018