更少的内存意味着更小的GPU:压缩激活的反向传播
提出一种系统性方法来减少深度神经网络训练的内存消耗,通过算法设计,在每个小批量仅需要一个额外正向传播的计算成本的情况下,以O(sqrt(n))的内存成本训练n层网络,使用计算图分析进行自动原地操作和内存共享优化,可以在更少的计算成本下实现更多的内存节约效果。
Apr, 2016
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达27.9倍和5.6倍的速度提升。
Oct, 2016
该技术报告介绍了一种减少DenseNet在训练期间内存消耗的策略,使得可以在单个GPU上训练非常深的网络,并在ImageNet ILSVRC分类数据集上获得了最先进的单剪裁top-1误差为20.26%。
Jul, 2017
SuperNeurons是一种GPU内存调度运行时,采用三种内存优化技术,联合使用从而将网络宽度与深度推向新高度,并解决Deep Learning从业者由于GPU内存受限而需要修改网络架构或手动分配显存的问题。
Jan, 2018
本文提出了一种新的反向传播实现,通过使用近似来显著减少内存使用,使用相对较低的精度近似,而不影响训练准确性,并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。
Jan, 2019
本文提出了一种名为ActNN的基于随机量化激活值实现的内存高效训练框架,该框架针对神经网络训练过程中内存不足的问题,利用分层、分维度、分样本的异质性进行多样化的量化,以达到减小内存占用和缩短训练时间的目的,Empirically验证了ActNN 的有效性,并表明其不会带来过大的精度损失。
Apr, 2021
通过提出局部卷积(PConv)和一种新的神经网络FasterNet,实现了在广泛设备上获得比其他网络更快的运行速度,而不会牺牲各种视觉任务的准确性。
Mar, 2023
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与GPU相比,使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益,且在训练收敛或最终模型性能上没有明显减慢。
Nov, 2023
通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小GPU内存需求,从而降低大规模模型训练的要求并解决生态环境问题。
Nov, 2023