加权采样的批次随机梯度下降

Aug, 2016

Batched Stochastic Gradient Descent with Weighted Sampling

Deanna Needell, Rachel Ward

TL;DR通过计算分布批次的随机梯度下降，相比单纯的分步抽样或者有样本权重分配的随机梯度下降，可以得到可观的优化速度。我们为了最小二乘和铰链损失问题提出了几种计算有效的近似权重和计算方案。这篇论文的分析和实验表明我们的方法可以获得重大的优势。

Abstract

We analyze a batched variant of stochastic gradient descent (SGD) with weighted sampling distribution for smooth and non-smooth objective functions. We show that by distributing the batches computationally, a sig

stochastic gradient descent weighted sampling distribution convergence rate optimization least squares

发现论文，激发创造

随机梯度下降，加权抽样和随机 Kaczmarz 算法

本文主要研究了随机梯度下降法的线性收敛性，得到了更好的收敛保证，并且阐述了使用重要性采样在其他场景中进一步提高收敛速度的方法。研究基于随机梯度下降法与随机 Kaczmarz 算法之间的联系，可以将各自的研究成果相互借鉴。

Oct, 2013

加权平均随机梯度下降：渐近正态性与最优性

本文探讨了随机梯度下降算法的加速收敛方法，提出了一种自适应加权平均方案，并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明，该自适应加权平均方案不仅在统计率上是最优的，而且在非渐近收敛方面也具有有利的效果。

Jul, 2023

使用随机梯度下降平滑非凸函数：隐式逐渐优化与最优噪声调度的分析

本文定义了用于 graduated optimization 的一类新的非凸函数，讨论了其充分条件，并对 graduated optimization 算法的收敛性进行了分析。研究发现，带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察，解释了为何大批量大小会陷入尖锐的局部最小值，以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小，并给出了最佳的学习率调度方法。此外，分析了一种新的 graduated optimization 框架，该框架使用逐渐减小的学习率和逐渐增大的批量大小，并报告了支持我们理论发现的图像分类的实验结果。

Nov, 2023

非光滑优化的随机梯度下降：收敛结果与最优平均方案

本文探讨了在没有光滑假设的情况下，以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能，并证明了对于凸非光滑目标函数，最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O（log（T）/sqrt（T））缩放，对于非光滑强凸情况，次优性的程度随 T 按 O（log（T）/ T）缩放。此外，本文提出了一种新的简单平均方案，并提供了一些实验说明。

Dec, 2012

SGD: 一般分析和改进速率

提出 SGD 收敛的通用简单定理，该定理可描述与特定概率法相关的各种 SGD 变体的收敛性。该定理是第一次执行这种分析，大多数 SGD 的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念，并不依赖于随机梯度方差的统一界限。

Jan, 2019

非凸世界中 SGD 的更好理论

本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率，并在考虑多种采样策略和小批量大小的情况下，探讨有限和优化问题的影响。

Feb, 2020

使用随机梯度下降从高斯过程后验分布中进行采样

本论文介绍了通过使用随机梯度算法来近似解决高斯过程中线性系统求解的限制，并利用影响收敛的隐含偏差的谱特点来解释结果，最终在大规模数据集上取得了最先进的预测性能和不确定性估计。

Jun, 2023

最小二乘回归的随机梯度下降并行化：小批量、平均和模型错误

该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是，通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析，提供了这些方案的性能保证，并提出了高度可并行化的随机梯度下降方法。同时，该研究认为，为了保证最小极大风险，针对混浊噪声的步长必须是噪声属性的一个函数。

Oct, 2016

随机多目标采样梯度下降

我们提出了一种名为 Stochastic Multiple Target Sampling Gradient Descent (MT-SGD) 的方法，用于从多个未归一化的目标分布中进行采样。通过逐渐调整中间分布的流向多个目标分布，使采样粒子向目标分布的联合高似然区域移动，此方法在多目标优化问题上获得了良好的表现。

Jun, 2022

近端设置下的小批量半随机梯度下降

提出了一种利用小批量方案改进半随机梯度下降（S2GD）方法的 mS2GD，该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数，分析表明，该方法在具有小批量效应和简单并行实现方案的情况下，可以加速算法的收敛过程。

Apr, 2015