更少的内存意味着更小的GPU：压缩激活的反向传播

Sep, 2024

更少的内存意味着更小的GPU：压缩激活的反向传播

Less Memory Means smaller GPUs: Backpropagation with Compressed Activations

Daniel Barley, Holger Fröning

TL;DR本研究针对深度神经网络（DNN）在训练中内存需求不断增长的问题，提出了一种通过池化压缩激活图的方法，以减少反向传播中的内存占用和数据移动。研究表明，虽然训练时间有所增加，但这种新方法能够将峰值内存消耗降低29%，同时保持预测准确性，展现了其在现代深度学习中的潜在影响。

Abstract

The ever-growing scale of deep neural networks (DNNs) has lead to an equally rapid growth in computational resource requirements. Many recent architectures, most prominently Large Language Models, have to be trained using supercomputers with thousands of accelerators, such as GPUs or TPUs. Next to the vast number of floating point operations the memory footp

发现论文，激发创造

用亚线性内存成本训练深度神经网络

提出一种系统性方法来减少深度神经网络训练的内存消耗，通过算法设计，在每个小批量仅需要一个额外正向传播的计算成本的情况下，以O（sqrt（n））的内存成本训练n层网络，使用计算图分析进行自动原地操作和内存共享优化，可以在更少的计算成本下实现更多的内存节约效果。

Apr, 2016

在GPU上优化深度卷积神经网络的内存效率

本文探讨了对于卷积神经网络的内存效率的优化，以及其对性能的影响，并提出了数据布局及内存访问模式方面的优化策略。实验证明，这些策略不仅对于单个层面有效，对于整个神经网络也可获得高达27.9倍和5.6倍的速度提升。

Oct, 2016

DenseNets 的内存高效实现

该技术报告介绍了一种减少DenseNet在训练期间内存消耗的策略，使得可以在单个GPU上训练非常深的网络，并在ImageNet ILSVRC分类数据集上获得了最先进的单剪裁top-1误差为20.26%。

Jul, 2017

SuperNeurons: 为深度神经网络训练提供动态GPU内存管理

SuperNeurons是一种GPU内存调度运行时，采用三种内存优化技术，联合使用从而将网络宽度与深度推向新高度，并解决Deep Learning从业者由于GPU内存受限而需要修改网络架构或手动分配显存的问题。

Jan, 2018

使用近似激活的反向传播进行内存高效网络训练

本文提出了一种新的反向传播实现，通过使用近似来显著减少内存使用，使用相对较低的精度近似，而不影响训练准确性，并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。

Jan, 2019

通过2位激活压缩训练减少训练内存占用的ActNN

本文提出了一种名为ActNN的基于随机量化激活值实现的内存高效训练框架，该框架针对神经网络训练过程中内存不足的问题，利用分层、分维度、分样本的异质性进行多样化的量化，以达到减小内存占用和缩短训练时间的目的，Empirically验证了ActNN 的有效性，并表明其不会带来过大的精度损失。

Apr, 2021

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和GPU训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

追求更高的 FLOPS 以加速神经网络：奔跑不止

通过提出局部卷积(PConv)和一种新的神经网络FasterNet，实现了在广泛设备上获得比其他网络更快的运行速度，而不会牺牲各种视觉任务的准确性。

Mar, 2023

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与GPU相比，使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

大规模神经架构的反向传播压缩：结构化激活剪枝

通过在深度神经网络中采用结构化修剪和块稀疏性操作，目前的研究旨在通过减少激活值的内存消耗来减小GPU内存需求，从而降低大规模模型训练的要求并解决生态环境问题。

Nov, 2023