随机梯度在匹配问题中取得成功

ICMLFeb, 2024

Stochastic Gradient Succeeds for Bandits

Jincheng Mei, Zixin Zhong, Bo Dai, Alekh Agarwal, Csaba Szepesvari...

TL;DR证明了随机梯度贪心算法以 $O (1/t)$ 的速率收敛到全局最优策略，即使使用恒定步长，同时通过实验证实了这些理论发现。

Abstract

We show that the \emph{stochastic gradient} bandit algorithm converges to a \emph{globally optimal} policy at an $O(1/t)$ rate, even with a \emph{constant} step size. Remarkably, global convergence of the stochastic gradient bandit algorithm has not been previously established, even though it is an old algorithm known to be applicable to bandits. The new res

stochastic gradient bandit algorithm globally optimal policy constant step size noise control weak exploration

发现论文，激发创造

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020

随机梯度下降（SGD）的收敛速度及其在修改后的多臂赌博机策略梯度中的应用

我们提供了随机梯度下降法（SGD）在学习率遵循逆时间衰减策略时收敛速度的自包含证明，并将该结果应用到带有 L2 正则化的改进型策略梯度多臂赌博问题的收敛中。

Feb, 2024

随机梯度方法在梯度主导条件下的几乎必然收敛速率

基于全局和局部梯度支配的随机梯度下降法收敛速度证明及其在监督学习和强化学习中的应用。

May, 2024

随机梯度算法的新收敛性特点

本文对随机梯度下降法（SGD）的收敛性进行了分析，提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法，并在多个情境下证明了 SGD 的收敛性，拓展了当前一类可达到收敛性的学习率。

Nov, 2018

自适应树形赌博机

通过将问题转化为 tree-armed bandits 并提供新结果，我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法，并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差，并证明了能够自适应地组合多个树以最小化遗憾，并且在缩放维度方面提供了接近匹配的较低界。

Feb, 2013

面向噪声自适应、问题自适应（加速）随机梯度下降

通过利用指数步长和随机线性搜索等技术，使得随机梯度下降算法适应不同噪声水平和问题相关的常数，可以在强凸函数的条件下，取得与理论最优相近的收敛速度，同时能够有效地处理噪声和数据不凸的情况。

Oct, 2021

基于贝叶斯的梯度和赌博机学习统一加速全局优化

本文提出了一种贝叶斯方法，它将基于贪心的优化和基于梯度的优化相结合，并使用贝叶斯可信区间来权衡探索和利用。实验结果表明，该方法在广泛的问题环境中改善了性能，为元优化和梯度相关信息能够获得的应用程序提供了改进的性能。

May, 2017

SGD 和 Hogwild!：在无需有界梯度假设的情况下收敛

该研究论文讨论了随机梯度下降算法的收敛性分析，提出了一种在异步并行环境下使用降低学习率机制的算法，并证明了其收敛性。

Feb, 2018

非强凸平稳随机逼近，收敛速率 O (1/n)

本篇论文研究了关于随机逼近问题的现有算法，提出了两种新型随机梯度算法，并在回归和逻辑分类两种经典的监督学习问题上进行了测试，得到了较好的优化效果。

Jun, 2013

具有确定性观测的高斯过程赌博机的指数遗憾界

通过分析高斯过程臂带问题，针对确定性观察结果，运用分支限定算法攻击了确定性情况并获得了更快的指数收敛率，显示出后悔随着时间推移而按高概率下降，估计呈现 O（e ^ - tau * t / (ln t)^（d/4））的结果，其中 d 是搜索空间的维度，tau 是目标函数在其全局最大值附近的行为所依赖的常数。

Jun, 2012