大规模分布式学习中的拟牛顿更新
本研究提出了适用于分布式优化的一种新的 Newton 类方法,特别适用于随机优化和学习问题。对于二次目标,该方法的收敛速度呈现线性,可以按照数据规模得到改善,基于合理假设需要基本恒定次迭代。本文提供了理论和实证证据,表明我们的方法比其他方法,如单次参数平均和 ADMM,具有优势。
Dec, 2013
通过采用简单的 Hessian 初始化和自适应训练区域分配,本论文介绍了一种名为 RANL 的新颖高效算法,该算法克服了 Newton 方法在大规模和异构学习环境中的限制,展现了出色的收敛性能,有效地适应可用资源并保持高效率,使其成为实际场景中的分布式随机优化的有希望的方法。
Aug, 2023
本文提出了一种名为 QuanTimed-DSGD 的新型分布式渐进优化算法,通过调整每个节点在算法每一步中本地计算梯度的截止时间和节点间交换量化本地模型的机制来解决分布式计算中经常遇到的滞后和通信效率低的问题,数值评估结果表明该算法与最先进的分布式优化方法相比,运行时间可提速至多 3 倍。
Jul, 2019
提出一种名为 LocalNewton 的分布式二阶算法,使用本地平均法,通过使用本地存储的数据和模型,让工作机器每个迭代更新其模型并在许多本地迭代后将模型传输给主节点。使用新颖的基于矩阵聚焦的技术,提出自适应方案选择本地迭代次数 L,使用实验表明相对于现有算法该方法可以显著减少通信次数和运行时间。
May, 2021
本文提出了一种基于限制记忆的 BFGS 更新公式和子采样 Hessian - 向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题,并通过机器学习问题上的数值结果展示其前景。
Jan, 2014
本文提出了一种新的分布式训练线性分类器的方法,旨在减少通信成本,在迭代期间每个节点最小化局部形成的近似目标函数,然后合并得到下降方向移动,该方法可以看作是迭代参数混合法。
Oct, 2013
该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。
Nov, 2013
本文提出了一种新的分布式广义线性模型训练算法,只需计算各工作器上的 Hessian 矩阵的对角块,然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。
Jun, 2018
mL-BFGS 是一种基于动量的轻量级 L-BFGS 算法,为大规模分布式深度神经网络 (DNN) 优化带来了拟牛顿法在大规模训练中的潜力。mL-BFGS 通过引入几乎无额外计算成本的动量方案,并显著减少 Hessian 中的随机噪声,从而在随机优化过程中稳定收敛。实验结果表明,mL-BFGS 在迭代和实际时间上均获得了明显的加速效果,并与基准方法(SGD、Adam 和其他拟牛顿法)进行了比较。
Jul, 2023
本篇论文提出了一种名为 adaQN 的随机拟牛顿算法,用于解决循环神经网络 (RNN) 训练中的梯度消失 / 爆炸问题,该方法使用了一种新的 L-BFGS 缩放初始化方案,并且在存储和保留 L-BFGS 曲率对方面非常明智,实践表明 adaQN 与流行的 RNN 训练算法有相当的竞争力。
Nov, 2015