半循环随机梯度下降
本文介绍了一种将 Stochastic Gradient 和 Block Coordinate Descent 结合的方法,名为 Block Stochastic Gradient,它可以解决包含多个变量块的目标函数的优化问题,无论是凸优化问题还是非凸优化问题,并在多个模型上进行了测试。
Aug, 2014
本文研究了一类具有特殊可分离形式的光滑函数和紧支撑非光滑项总和的凸问题。当以循环顺序选择块时,分析了广义条件梯度方法的块版本。对于在这类方法中常用的两种步长策略建立了全局次线性收敛率。提出的方法与经典条件梯度算法及其随机块版本进行的数值比较证明了循环块更新规则的有效性。
Feb, 2015
本论文利用循环随机梯度 MCMC 算法对神经网络权重后验分布进行高效探索,证明了算法的确切收敛性,拓展了算法在复杂多模态分布下的应用性能,尤其是用于深度神经网络的贝叶斯推断。
Feb, 2019
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。
Apr, 2017
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
研究机器学习算法(如神经网络)的泛化能力如何受数据分布结构影响,提出了一种基于随机梯度下降的可解模型来预测任意协方差结构的特征测试误差,并在各种数据集上验证其准确性;同时证明小批量 SGD 在固定计算预算下的最优批量通常较小,取决于特征相关性结构。
Jun, 2021
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
研究随机误差对两个约束性增量次梯度算法的影响,并以分布式网络为基础,研究标准增量次梯度算法和随机误差下的方法。通过 Markov 随机增量次梯度方法,对移动网络拓扑变化的建模,研究其稳定性和误差上界。
Jun, 2008