本文研究了神经网络训练所需内存的实际需求量,并系统评估了四种降低训练内存需求的标准技术。研究结果表明,通过选择适当的技术组合,可以在保持较少损失精度的前提下,显著减少训练神经网络所需的内存。
Apr, 2019
该技术报告介绍了一种减少 DenseNet 在训练期间内存消耗的策略,使得可以在单个 GPU 上训练非常深的网络,并在 ImageNet ILSVRC 分类数据集上获得了最先进的单剪裁 top-1 误差为 20.26%。
Jul, 2017
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
提出一种系统性方法来减少深度神经网络训练的内存消耗,通过算法设计,在每个小批量仅需要一个额外正向传播的计算成本的情况下,以 O(sqrt(n))的内存成本训练 n 层网络,使用计算图分析进行自动原地操作和内存共享优化,可以在更少的计算成本下实现更多的内存节约效果。
Apr, 2016
该研究提出了一种基于分块的推理调度方法和神经网络重构技术,通过结合神经网络的设计和推理调度,实现了在微控制器单元上高效、准确的深度学习推理,并改善了已有网络的内存瓶颈问题。
Oct, 2021
SuperNeurons 是一种 GPU 内存调度运行时,采用三种内存优化技术,联合使用从而将网络宽度与深度推向新高度,并解决 Deep Learning 从业者由于 GPU 内存受限而需要修改网络架构或手动分配显存的问题。
Jan, 2018
本文介绍了一种可以在有限的内存下训练深度卷积神经网络的方法,可以使用较大的图像尺寸,并通过定量比较证明了该方法与传统方法等效。
Apr, 2018
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。
Oct, 2016
使用布尔逻辑最小化方法训练深度神经网络可以有效降低计算和存储复杂度,并实现高能效。
Jul, 2018
本文系统地讨论了提高深度神经网络训练效率的方法,重点考虑了内存利用率和 GPU 训练,分类总结了相关策略,并且比较了不同类别之间的方法。
Feb, 2022