正则化对偶平均的扩展及其动态

Sep, 2019

A generalization of regularized dual averaging and its dynamics

Shih-Kang Chao, Guang Cheng

TL;DR通过提出广义正则化对偶平均（gRDA）算法，该算法首次推导了在线 l1 惩罚问题的渐近分布，并开发了在线稀疏线性回归和在线稀疏主成分分析的统计推断理论，以及进行了广泛的数值分析。

Abstract

Excessive computational cost for learning large data and streaming data can be alleviated by using stochastic algorithms, such as stochastic gradient descent and its variants. Recent advances improve stochastic algorith

stochastic algorithms generalized regularized dual averaging online statistical inference sparse linear regression sparse principal component analysis

发现论文，激发创造

高维广义线性模型中基于流数据的自适应无偏 SGD

在线统计推断使得实时分析顺序采集的数据成为可能，本文引入了一种针对高维广义线性模型的在线推断新方法，通过在每次新增数据到达时更新回归系数估计和其标准误差，与现有方法相比，该方法以单次传递模式运行，大大降低了时间和空间复杂度。方法的核心创新在于针对动态目标函数设计的自适应随机梯度下降算法，结合了一种新型的在线去偏过程，能够在有效控制由动态变化的损失函数引入的优化误差的同时，保持低维度的摘要统计量。我们的方法，即近似去偏套索（ADL），不仅减轻了有界个别概率条件的需求，而且显著提高了数值性能。数值实验证明了所提出的 ADL 方法在各种协方差矩阵结构下一致表现出鲁棒性。

May, 2024

DSA：去中心化双随机平均梯度下降算法

该论文提出了分布式双随机平均梯度算法 (DSA) 来解决大规模机器学习问题，具有线性收敛特性，相对于其他分散式随机优化方法，可以减少收敛时间和处理的功能向量数量。

Jun, 2015

高效通讯的分布式鲁棒性分布式学习

本文介绍了一种分布式学习算法 —— 去中心化单环梯度上升 / 下降算法（AD-GDA），以解决设备之间数据分布不均导致合作训练模型性能下降的问题，并采用压缩共识方案提高通信效率，并给出了平滑凸和非凸损失函数的收敛性保证。

May, 2022

结构化神经网络训练的正则化自适应动量双平均方法和高效非精确子问题求解器

我们提出了一种用于训练结构化神经网络的正则化自适应动量双重平均（RAMDA）算法，通过引入一个有效求解子问题的方法，RAMDA 可以输出具有优秀预测性能和（局部）最佳结构的模型。

Mar, 2024

并行平均随机梯度算法收敛率

介绍了一种并行的平均随机梯度算法，能够高效地递归处理高维空间中的大样本数据，并给出了强凸目标和局部强凸目标的平均收敛速度和渐近正态性。

Oct, 2017

带隐式更新的正则化对偶平均与镜像下降的统一视角

该研究探讨了三家在线凸优化算法家族：follow-the-proximally-regularized-leader（FTRL-Proximal）、正则化双平均（RDA）和组合目标镜像下降。研究证明了所有这些算法都是通用 FTRL 更新的实例。此外，通过使用紧凑的表示方法，文中还提出了一种更好的算法性能估计方法，在真实数据集上展现出了更好的性能。

Sep, 2010

分布鲁棒学习的无偏梯度估计

通过分布式鲁棒性学习，我们提出了一种新的方法以解决模型的泛化问题，该方法采用随机梯度下降求解外层最小化问题，并通过多层蒙特卡罗随机化有效地估计内层最大化问题的梯度，并通过得出理论结果确定了梯度估计器的最佳参数化，从而在计算时间和统计方差之间平衡。数值实验证明，我们的 DRL 方法在以往研究中具有显著优势。

Dec, 2020

GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

我们研究了在时间受限环境下的分布式深度学习模型训练，提出了一种新算法，通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量，以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法，分别称为模型级梯度加权平均算法（MGRAWA）和层级梯度加权平均算法（LGRAWA），其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面，我们证明了该方法在凸性和非凸性设置下的收敛保证。然后，我们通过实验证明，我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究，以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后，我们报告说，与现有基线方法相比，我们的方法需要较少的通信频率和分布式更新。

Mar, 2024

梯度下降上升的收敛性：一个严格的局部分析

本文探讨了梯度下降上升（GDA）方法在生成对抗网络中极小化最大化优化问题的收敛性质及实现方式，研究表明 GDA 在本地条件数为 y 时的步长比至少需要为 θ（Kappa），并支持在随机 GDA 和额外梯度方法（EG）中的应用。

Jul, 2022

分布鲁棒联邦平均法

本文介绍一种分布式算法，即 Distributionally Robust Federated Averaging，用于解决分布式鲁棒联邦学习中通信效率和全局参数更新频率不匹配的问题，并且研究了该算法的收敛性及其一般化方法。

Feb, 2021