通过 Count-Sketches 压缩梯度优化器

WWWFeb, 2019

Compressing Gradient Optimizers via Count-Sketches

Ryan Spring, Anastasios Kyrillidis, Vijai Mohan, Anshumali Shrivastava

TL;DR通过引入线性草图的压缩辅助变量方法，可以在减小成本的情况下，实现与原算法相同的性能，这在大规模深度学习模型的训练中具有潜在的应用价值。

Abstract

Many popular first-order optimization methods (e.g., Momentum, AdaGrad, Adam) accelerate the convergence rate of deep learning models. However, these algorithms require auxiliary parameters, which cost additional

optimization methods deep learning models linear sketch memory usage count-sketch

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

基于草图的高效分布式 SGD 算法

本论文提出了一种名为 Sketched SGD 的算法，通过传递梯度草图而不是完整梯度来执行分布式 SGD，与其他梯度压缩方法相比，Sketched SGD 通过减少通信次数将通信成本降低了约 40 倍，同时不影响最终模型性能。

Mar, 2019

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

大规模混合模型学习的速写

本文提出了一种压缩学习框架，通过数据的限制集来估计模型参数，并演示了该方法在高斯混合模型和说话人验证任务中的成功应用，以及它与随机特征的近似希尔伯特空间嵌入方法之间的联系。

Jun, 2016

SketchOGD：内存高效的持续学习

本文提出 SketchOGD 作为解决连续任务中机器学习模型遗忘的内存高效算法，使用在线素描算法压缩模型梯度，并在理论和实验上进行了评估。

May, 2023

FetchSGD: 基于草图技术的高效通信联邦学习算法

本文介绍了一种名为 FetchSGD 的算法，该算法通过使用 Count Sketch 压缩模型更新，并利用 Sketch 合并性从众多工作者中组合模型更新来克服联合学习中的通信瓶颈和因稀疏客户参与而导致的收敛问题。我们证明了 FetchSGD 具有良好的收敛性能，并通过训练两个残差网络和一个 Transformer 模型来证明其实证效果。

Jul, 2020

signSGD：非凸问题的压缩优化

signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题，在实际应用中，其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。

Feb, 2018

学习 CountSketch 中的位置

本文提出了优化稀疏矩阵的学习算法，通过优化矩阵中非零项的位置和值来实现低秩逼近、回归和二阶优化。

Jun, 2023

使用 Count-Min Sketch 在对数内存中进行的极端分类：以亚马逊搜索 50M 产品为例

本文提出了一种名为 MACH 的算法，用于处理极端分类问题，并在 6 个数据集上进行了测试，表明 MACH 优于目前市场上使用的分类模型，能够降低内存占用，加快训练速度。

Oct, 2019

分布式深度学习梯度压缩的评估与优化

本研究提出了一种名为 ACP-SGD 的梯度压缩方法，可以加速分布式训练并具有三种甚至更优秀的系统优化技术，与 S-SGD 相比，优化后的 ACP-SGD 在减少压缩和通信开支的同时，能够实现相似的模型准确性。

Jun, 2023