分散随机优化与梯度追踪简介
本文研究了去中心化PSGD算法的理论复杂度,表明相比于其优化的集中式对应物,去中心化算法在低带宽或高延迟网络配置中可以快上一个数量级,并且需要更少的通信成本。
May, 2017
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过Spark分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文提出了一种基于去中心化网络的、通信效率高且线性收敛的近似牛顿方法,该方法可以用于复合优化,并且通过本地通信和计算,可以显著提高总体效率。
Sep, 2019
该文章提出了一种名为D-GET的去中心化随机算法,可以提高大规模机器学习中高度非凸问题的性能,同时在减少多节点通信轮数的同时,访问最少量的局部数据样本,以实现确定性有限和在线问题的小样本复杂度和通信复杂度,并优于现有方法的复杂度。
Oct, 2019
研究异步传播模型下去中心化优化算法的收敛性,提出一种称为 SwarmSGD 的变量 SGD 算法,使用多维负载平衡过程连接进行分析,并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。
Oct, 2019
提出了一种新的基于随机压缩算子的一阶随机算法和方差约简技术,能够在去除了通信中数据量的一定压缩的前提下,快速地在分散的装置上完成模型的机器学习训练并收敛于最优解。
Nov, 2020
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Feb, 2021