深度网络的内存优化

ICLROct, 2020

Memory Optimization for Deep Networks

Aashaka Shah, Chao-Yuan Wu, Jayashree Mohan, Vijay Chidambaram, Philipp Krähenbühl

TL;DR本文介绍了 MONeT，一个自动框架，通过最小化深度神经网络的内存占用和计算负荷，优化检查点计划和各种算子的实现，实现了总体内存需求减少 3 倍的效果，能够优于所有以前的手调操作以及自动检查点。

Abstract

deep learning is slowly, but steadily, hitting a memory bottleneck. While the tensor computation in top-of-the-line GPUs increased by 32x over the last five years, the total available memory only grew by 2.5x. Th

deep learning memory bottleneck monet checkpointing schedule pytorch models

发现论文，激发创造

低内存神经网络训练技术报告

本文研究了神经网络训练所需内存的实际需求量，并系统评估了四种降低训练内存需求的标准技术。研究结果表明，通过选择适当的技术组合，可以在保持较少损失精度的前提下，显著减少训练神经网络所需的内存。

Apr, 2019

DenseNets 的内存高效实现

该技术报告介绍了一种减少 DenseNet 在训练期间内存消耗的策略，使得可以在单个 GPU 上训练非常深的网络，并在 ImageNet ILSVRC 分类数据集上获得了最先进的单剪裁 top-1 误差为 20.26%。

Jul, 2017

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

用亚线性内存成本训练深度神经网络

提出一种系统性方法来减少深度神经网络训练的内存消耗，通过算法设计，在每个小批量仅需要一个额外正向传播的计算成本的情况下，以 O（sqrt（n））的内存成本训练 n 层网络，使用计算图分析进行自动原地操作和内存共享优化，可以在更少的计算成本下实现更多的内存节约效果。

Apr, 2016

MCUNetV2: 面向小型深度学习的高效内存补丁推理

该研究提出了一种基于分块的推理调度方法和神经网络重构技术，通过结合神经网络的设计和推理调度，实现了在微控制器单元上高效、准确的深度学习推理，并改善了已有网络的内存瓶颈问题。

Oct, 2021

SuperNeurons: 为深度神经网络训练提供动态 GPU 内存管理

SuperNeurons 是一种 GPU 内存调度运行时，采用三种内存优化技术，联合使用从而将网络宽度与深度推向新高度，并解决 Deep Learning 从业者由于 GPU 内存受限而需要修改网络架构或手动分配显存的问题。

Jan, 2018

使用百万像素图像训练卷积神经网络

本文介绍了一种可以在有限的内存下训练深度卷积神经网络的方法，可以使用较大的图像尺寸，并通过定量比较证明了该方法与传统方法等效。

Apr, 2018

在 GPU 上优化深度卷积神经网络的内存效率

本文探讨了对于卷积神经网络的内存效率的优化，以及其对性能的影响，并提出了数据布局及内存访问模式方面的优化策略。实验证明，这些策略不仅对于单个层面有效，对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。

Oct, 2016

NullaNet：用于减少内存访问推理的深度神经网络训练

使用布尔逻辑最小化方法训练深度神经网络可以有效降低计算和存储复杂度，并实现高能效。

Jul, 2018

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022