介绍了一个名为 Tensor Homomorphic Compression (THC) 的双向压缩框架,该框架可直接聚合压缩值,同时优化带宽和精度之间的平衡,从而加速了训练,且可与 INA 兼容。在测试中,THC 相对于其他方法提高了达 1.32 倍的时间 - 精度,且可扩展性强且容忍可接受的丢包率。
Feb, 2023
该论文研究了去中心化训练深度学习模型的关键因素,提出使用通信压缩来解决网络带宽有限的问题,并通过 Choco-SGD 算法实现了高压缩下的快速收敛,同时支持更高压缩比例,实验结果表明在多种应用场景下具有很好的实际性能表现。
Jul, 2019
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
介绍了一种使用低秩线性压缩器直接压缩相邻工作器之间的模型差异的简单算法,在分布式机器学习训练中具有实际应用价值,无需额外的超参数,收敛速度比之前的方法快,并且在一系列深度学习基准测试中的表现与经过调优的最先进压缩算法相当。
Aug, 2020
本研究介绍了一种轻量级的压缩技术,用于在边缘设备上进行代码的分割,仅针对深度神经网络中的激活,而且不需要任何重新训练。当应用于流行的对象检测和分类深度神经网络时,能够将 32 位浮点激活压缩到 0.6 至 0.8 位,同时保持精度损失不到 1%。
May, 2021
该论文介绍了一种名为 “深度压缩” 的技术,通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍,而同时不影响网络的准确性,该技术可以在嵌入式系统中使用,可以极大地提升模型的应用性能。
Oct, 2015
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
本文介绍了 GraVAC,一种动态调整压缩因子的框架,用于在分布式数据并行训练中降低通信开销并提高训练速度。GraVAC 可以根据模型进展和梯度信息损失自适应地进行压缩,相较于静态压缩因子,可以将 ResNet101,VGG16 和 LSTM 的端到端训练时间分别缩短 4.32x,1.95x 和 6.67x,相较于其他自适应方案,整体加速比可达 1.94x 至 5.63x。
May, 2023
本研究提出了一种名为 adaComp 的新算法,结合了梯度选择和学习率调节,在分布式深度学习计算中实现了 worker 更新模型数据压缩,通过在模拟平台上嵌入 TensorFlow 到 Linux 容器中进行实验,并报告相对于标准异步随机梯度下降,在保持模型精度的同时,将工人发送到服务器的总数据量减少了两个数量级(例如,在 MNIST 数据集上的卷积网络中,减少了 191 倍)
Feb, 2017
本文介绍了一种称为 Self-Compression 的方法,可以移除神经网络中的冗余参数和减少表示权重所需的位数,从而简化网络结构,提高训练和推断效率。作者通过实验证明,使用 Self-Compression 方法可以在只保留网络中 18% 的权重和仅需 3% 的位数的条件下,还能实现浮点数的准确性。
Jan, 2023