降低 PyTorch 对选择性微分的内存消耗

Apr, 2024

降低 PyTorch 对选择性微分的内存消耗

Lowering PyTorch's Memory Consumption for Selective Differentiation

Samarth Bhatia, Felix Dangel

TL;DR在深度学习任务中，内存是一个有限的资源。除了神经网络权重外，另一个主要消耗内存的因素是通过自动微分（AD）建立的计算图，用于反向传播。我们观察到 PyTorch 当前的 AD 实现在存储计算图时忽略了参数可微性的信息。然而，这些信息对于在许多现代微调任务中请求参数子集的梯度时减少内存是有用的。特别是，对于在参数上线性操作的层（如全连接、卷积或归一化层）的输入可以在参数被标记为不可微时丢弃。我们提供了一个适用于不可微性的层的可替换的实现，并展示它在不影响运行时间的情况下如何减少内存。

Abstract

memory is a limiting resource for many deep learning tasks. Beside the neural network weights, one main memory consumer is the

memory deep learning computation graph automatic differentiation fine-tuning

发现论文，激发创造

Few-Bit Backward: 激活函数的量化梯度用于减少内存占用

本篇论文研究了神经网络训练中的内存占用问题，在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化，以显著减少内存占用和保证相同的收敛性能。

Feb, 2022

随机自动微分

提出了随机自动微分 (RAD) 的一般框架和方法，可实现减少内存的无偏梯度估计，特别适用于小批量的反向传播神经网络，同时适用于科学计算中的优化控制参数

Jul, 2020

解密可导编程：Shift/Reset 倒数第二个反向传播器

本文研究了自动微分技术和其与限定续延之间的紧密关系，提出了无需任何辅助数据结构的运算符重载形式的反向模式自动微分实现，并将其与多阶段编程相结合，实现了 TensorFlow 等框架的计算性能优势和 PyTorch 等库的表达能力。

Mar, 2018

大型线性层的高效反向传播优化

该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法，并证明该方法可以通过降低所需内存容量，从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试，结果表明，该方法即使降低了测试准确度，但仍能实现显著的内存消耗优化。

Jan, 2022

可微程序张量网络

本篇论文介绍了可微编程的概念，研究如何将张量网络算法编程为可完全微分，提出了稳定的张量分解自动微分方法和通过迭代固定点实现反向传播的技术，应用于 Ising 模型和 Heisenberg 模型，取得了较好的优化效果。

Mar, 2019

深度网络的内存优化

本文介绍了 MONeT，一个自动框架，通过最小化深度神经网络的内存占用和计算负荷，优化检查点计划和各种算子的实现，实现了总体内存需求减少 3 倍的效果，能够优于所有以前的手调操作以及自动检查点。

Oct, 2020

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

DrMAD：使用反向模式自动微分优化深度神经网络超参数的蒸馏

DrMAD 是一种通过优化同时保证模型效果的简单高效的方法，可以在超参数优化中通过近似反转训练轨迹最大化地利用前向传递的知识，是第一个实现自动调整深度神经网络数千个超参数的研究尝试。

Jan, 2016

深度学习技巧

本文介绍了深度学习社群已经开发的一系列方法，包括梯度优化、算法微分、机器学习和随机牛顿法，并详细讨论了其中两种方法的数学细节。

Nov, 2016

自动微分在神经网络求解微分方程中的重要性

神经网络方法在科学和工程领域中解决偏微分方程具有显著优势，尤其是在涉及复杂区域或纳入经验数据的情况下。本文引入截断熵的概念来表征训练性质，通过对随机特征模型和两层神经网络进行综合实验证明这一定义的截断熵可靠地量化随机特征模型的残差损失和神经网络在自动微分和有限差分方法下的训练速度，实验证明从训练角度看，自动微分能够在解决偏微分方程的问题上胜过有限差分法。

May, 2024