无梯度训练神经网络：一种可扩展的 ADMM 方法

May, 2016

无梯度训练神经网络：一种可扩展的 ADMM 方法

Training Neural Networks Without Gradients: A Scalable ADMM Approach

Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel...

TL;DR本文提出了一种不依赖于梯度的训练方法，该方法使用交替方向方法和 Bregman 迭代来训练神经网络，以解决传统优化算法在大规模集群设置中不适用的问题，并在分布式环境中实现了线性加速。

Abstract

With the growing importance of large network models and enormous training datasets, GPUs have become increasingly necessary to train neural networks. This is largely because conventional optimization algorithms rely on stochastic gradient methods that don't scale well to large numbers

gpu neural networks training method convergence distributed setting

发现论文，激发创造

AA-DLADMM：一种基于加速 ADMM 的深度神经网络训练框架

提出了一种名为 AA-DLADMM 的算法，它使用了 Anderson 加速以改进 ADMM 优化算法的收敛速度，通过在四个基准数据集上进行广泛实验证明了该算法的有效性和效率。

Jan, 2024

小批量随机 ADMM 方法求解非凸非光滑优化问题

本文提出了一种用于解决大规模非凸非光滑问题的小批量随机 ADMM 类方法，并将小批量随机梯度方法扩展到非凸 SVRG-ADMM 和 SAGA-ADMM 中。

Feb, 2018

ADMM 用于全局收敛的高效深度学习

本文提出 dlADMM 算法解决常规深度学习中使用 ADMM 所面临的全局收敛保证缺失，收敛速度慢以及计算时间复杂度高的问题，并且通过在子问题中使用迭代二次近似和回溯进行有效增强的特定算法设计，将时间复杂度从特征维度的立方降至二次，并在温和条件下提供了支持 ADMM 的深度神经网络问题全局收敛的第一份证明。大规模实验表明，本文所提出的 dlADMM 算法优于大多数比较方法。

May, 2019

具有生成先验学习的快速可证明 ADMM

本文提出了一种线性化的 ADMM 算法，用于最小化一个凸函数在非凸约束下的解，旨在解决变量处于神经网络范围内的约束问题，并给出了这种算法在 feedforward 架构下的性能特征，相比于梯度下降法更加高效。

Jul, 2019

可扩展的随机交替方向乘子法

本文提出了一种新的针对大规模优化和学习问题的方法，称为可扩展随机 ADMM (SCAS-ADMM)，可以在不需要存储历史梯度的情况下，在一般凸问题上达到与最佳随机方法 SA-ADMM 和批处理 ADMM 相同的收敛速度。实验结果表明，SCAS-ADMM 能够在实际应用中达到最先进的性能。

Feb, 2015

大规模二次规划的 ADMM GPU 加速

本文通过在 GPU 上建立 ADMM 的求解器来加速大规模优化问题的求解，实现了高效地利用算力提高求解速度，并与 CPU 实现相比，速度提高了数十倍。

Dec, 2019

快速随机交替方向乘子法

本文提出一种新的随机交替方向乘子法（ADMM）算法，其在线性化 ADMM 公式上逐步逼近全梯度。实验证明，该算法在凸优化问题上的收敛速度得到提高，速度显著快于现有的随机和批量 ADMM 算法。

Aug, 2013

大规模优化的异步分布式 ADMM 算法与收敛分析 - 第一部分

本文研究了基于 ADMM 的分布式优化方法，提出了一种异步 ADMM 算法，可以有效提高分布式计算的时间效率，同时通过对算法参数的适当选择，可以保证算法收敛到 Karush-Kuhn-Tucker（KKT）点集。

Sep, 2015

随机自动微分

提出了随机自动微分 (RAD) 的一般框架和方法，可实现减少内存的无偏梯度估计，特别适用于小批量的反向传播神经网络，同时适用于科学计算中的优化控制参数

Jul, 2020

零阶随机交替方向乘子法用于非凸非光滑优化

本文提出了一种基于坐标平滑梯度估计器的快速零阶随机 ADMM 方法（即 ZO-SVRG-ADMM 和 ZO-SAGA-ADMM），用于解决具有多个非光滑惩罚的非凸问题，证明了这两种方法的收敛速率为 $O（1 / T）$，可以有效地解决许多复杂的机器学习问题。

May, 2019