本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法,保留了每个参数的自适应性优势,同时允许使用更大的模型和批量大小,具有很好的收敛性和训练效果。
Jan, 2019
本论文提出了一种名为 Sketched SGD 的算法,通过传递梯度草图而不是完整梯度来执行分布式 SGD,与其他梯度压缩方法相比,Sketched SGD 通过减少通信次数将通信成本降低了约 40 倍,同时不影响最终模型性能。
Mar, 2019
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文提出了一种压缩学习框架,通过数据的限制集来估计模型参数,并演示了该方法在高斯混合模型和说话人验证任务中的成功应用,以及它与随机特征的近似希尔伯特空间嵌入方法之间的联系。
Jun, 2016
本文提出 SketchOGD 作为解决连续任务中机器学习模型遗忘的内存高效算法,使用在线素描算法压缩模型梯度,并在理论和实验上进行了评估。
May, 2023
本文介绍了一种名为 FetchSGD 的算法,该算法通过使用 Count Sketch 压缩模型更新,并利用 Sketch 合并性从众多工作者中组合模型更新来克服联合学习中的通信瓶颈和因稀疏客户参与而导致的收敛问题。我们证明了 FetchSGD 具有良好的收敛性能,并通过训练两个残差网络和一个 Transformer 模型来证明其实证效果。
Jul, 2020
signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题,在实际应用中,其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。
Feb, 2018
本文提出了优化稀疏矩阵的学习算法,通过优化矩阵中非零项的位置和值来实现低秩逼近、回归和二阶优化。
Jun, 2023
本文提出了一种名为 MACH 的算法,用于处理极端分类问题,并在 6 个数据集上进行了测试,表明 MACH 优于目前市场上使用的分类模型,能够降低内存占用,加快训练速度。
Oct, 2019
本研究提出了一种名为 ACP-SGD 的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与 S-SGD 相比,优化后的 ACP-SGD 在减少压缩和通信开支的同时,能够实现相似的模型准确性。