梯度是你所需要的一切？

Jun, 2023

Gradient is All You Need?

Konstantin Riedl, Timo Klock, Carina Geldhauser, Massimo Fornasier

TL;DR本文解释了一种新的分析梯度下降算法的理论方法，通过将多粒子无导数优化方法（CBO）解释为梯度下降的随机松弛，证明了 CBO 在对大量非光滑和非凸的目标函数具有成为全局最小化器的全局收敛性

Abstract

In this paper we provide a novel analytical perspective on the theoretical understanding of gradient-based learning algorithms by interpreting consensus-based optimization (CBO), a recently proposed multi-particl

gradient-based learning algorithms consensus-based optimization stochastic gradient descent global convergence nonsmooth analysis

发现论文，激发创造

有偏随机梯度下降用于条件随机优化

本研究提出了一种有偏随机梯度下降算法（BSGD），并在不同结构假设下研究了偏差 - 方差权衡。我们确定了 BSGD 的样本复杂度，包括强凸、凸和弱凸目标，在平滑和非平滑条件下，并为凸 CSO 目标提供相匹配的下界。通过进行广泛的数值实验，我们证明了 BSGD 在鲁棒逻辑回归，模型无关元学习（MAML）和工具变量回归（IV）中的性能。

Feb, 2020

机器学习的非凸优化：梯度、随机性和鞍点

本文研究梯度下降和随机梯度下降等算法在机器学习中的应用，分析了这些算法在非凸优化问题中收敛到驻点的情况，提出了变形的算法可以更高效地避免出现维数灾难，从而沟通了理论和实践。

Feb, 2019

使用随机梯度下降平滑非凸函数：隐式逐渐优化与最优噪声调度的分析

本文定义了用于 graduated optimization 的一类新的非凸函数，讨论了其充分条件，并对 graduated optimization 算法的收敛性进行了分析。研究发现，带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察，解释了为何大批量大小会陷入尖锐的局部最小值，以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小，并给出了最佳的学习率调度方法。此外，分析了一种新的 graduated optimization 框架，该框架使用逐渐减小的学习率和逐渐增大的批量大小，并报告了支持我们理论发现的图像分类的实验结果。

Nov, 2023

非凸学习的随机梯度下降算法 (无需假设梯度有上限)

本文研究证明了随机梯度下降在非凸学习中，无需统一梯度有界性假设也能达到最优收敛率的情况，并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地，在方差为零的情况下可以得到线性收敛。

Feb, 2019

带有偏置但一致的梯度估计的随机梯度下降

本研究针对带图等情景，探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明，consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好，这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。

Jul, 2018

非凸世界中 SGD 的更好理论

本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率，并在考虑多种采样策略和小批量大小的情况下，探讨有限和优化问题的影响。

Feb, 2020

块随机梯度迭代用于凸和非凸优化

本文介绍了一种将 Stochastic Gradient 和 Block Coordinate Descent 结合的方法，名为 Block Stochastic Gradient，它可以解决包含多个变量块的目标函数的优化问题，无论是凸优化问题还是非凸优化问题，并在多个模型上进行了测试。

Aug, 2014

SGD 和 Hogwild!：在无需有界梯度假设的情况下收敛

该研究论文讨论了随机梯度下降算法的收敛性分析，提出了一种在异步并行环境下使用降低学习率机制的算法，并证明了其收敛性。

Feb, 2018

非凸优化的多智能体投影随机梯度算法收敛性

本文介绍了一种新的框架用于多智能体系统中分布式约束非凸优化算法的收敛分析，该算法由局部随机梯度下降和 GOSSIP 步骤组成，不需要 GOSSIP 矩阵双随机性，证明了算法收敛于 Karush-Kuhn-Tucker 点集，并适用于在自然广播场景中节省网络能量。

Jul, 2011

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016