深度神经网络的变分随机梯度下降
CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.
Mar, 2016
本文提出了一种基于神经网络的参数化证见函数的改进 Stein 变分梯度下降方法,旨在解决传统 Stein 变分梯度下降中选择核函数的难题,经实验证明该方法在合成推理问题、贝叶斯线性回归和贝叶斯神经网络推理问题中有效可行。
Jul, 2021
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种名为 VR-SGD 的变体随机梯度下降法,其使用平均值和上一个时期的最后迭代作为两个向量,能够直接解决非光滑和 / 或非强凸问题,并能够使用更大的学习率。此方法在解决各种机器学习问题,如凸和非凸的经验风险最小化以及特征值计算等方面,具有更快的收敛速度。
Feb, 2018
本文提出了 SGDA 的统一收敛性分析框架,覆盖了各种随机梯度下降上升方法,并分别提出了多种新变体方法,通过大量数值实验证明了这些方法的重要性质。
Feb, 2022
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文中提出了一种深度展开的可训练 SVGD 算法,用于加速其收敛速度,并通过数值模拟实验证明了该算法相较于传统的 SVGD 变体具有更快的收敛速度。
Feb, 2024
该研究提出了一种基于人口的进化随机梯度下降(ESGD)框架来优化深度神经网络,该框架将 SGD 和基于梯度的进化算法作为互补算法,以提高种群的平均适应度。
Oct, 2018