通过近似和共享反向传播减少微调内存开销

ICMLJun, 2024

通过近似和共享反向传播减少微调内存开销

Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation

Yuchen Yang, Yingdong Shi, Cheems Wang, Xiantong Zhen, Yuxuan Shi...

TL;DR本文主要关注细调预训练大型模型的内存开销问题，从激活函数和层归一化的角度来减轻内存开销，并通过引入 Approx-BP 理论，提出了 GELU 和 SiLU 激活函数的内存高效替代方案，以及 Memory-Sharing Backpropagation 策略来减少内存使用冗余。实验表明，该方法能够降低高达 30% 的内存使用率。

Abstract

fine-tuning pretrained large models to downstream tasks is an important problem, which however suffers from huge memory overhead due to large-scale parameters. This work strives to reduce →

fine-tuning memory overhead activation function layer normalization memory reduction

发现论文，激发创造

使用近似激活的反向传播进行内存高效网络训练

本文提出了一种新的反向传播实现，通过使用近似来显著减少内存使用，使用相对较低的精度近似，而不影响训练准确性，并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。

Jan, 2019

大型线性层的高效反向传播优化

该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法，并证明该方法可以通过降低所需内存容量，从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试，结果表明，该方法即使降低了测试准确度，但仍能实现显著的内存消耗优化。

Jan, 2022

Few-Bit Backward: 激活函数的量化梯度用于减少内存占用

本篇论文研究了神经网络训练中的内存占用问题，在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化，以显著减少内存占用和保证相同的收敛性能。

Feb, 2022

DropBP：通过放弃反向传播来加速大语言模型的微调

通过 Dropping Backward Propagation（DropBP）方法，在保持准确性的同时减少计算成本，提高深度神经网络的训练效率。

Feb, 2024

高效使用内存的时间反向传播

我们提出了一种新方法来降低通过时间反向传播算法在培训循环神经网络时的内存消耗，这种方法使用动态规划来平衡中间结果的缓存和重新计算之间的折衷，并最小化计算成本。

Jun, 2016

随机反向传播：一种训练视频模型的内存高效策略

在视频数据的神经网络训练中，提出了一种名为随机反向传播（SBP）的记忆效率高的方法，可以显著降低 GPU 内存的占用，并可用于各种视频任务的模型训练，包括动作识别和时间动作检测，而且几乎不影响准确率。

Mar, 2022

激活松弛：脑内反向传播的局部动态逼近

提出了 Activation Relaxation (AR) 算法，利用构建反向传播梯度的动力系统平衡点实现只利用局部信号的反向传播，可以在任意计算图上收敛，能在视觉分类任务上训练深度神经网络并且进行神经生物学实现的简化。

Sep, 2020

反向链接：具有监督的本地训练

该工作提出了一种新型的本地化训练算法，BackLink，它引入了模块间的反向依赖关系，采用了一定的误差传播长度限制，并在深卷积神经网络中进行了广泛的实验，表明我们的方法通过提高分类性能来改善本地培训算法。

May, 2022

快速参数化学习与激活记忆

本文提出了一种使用外部存储器的快速学习非参数模型来弥补神经网络在识别已出现少数次分类时的性能瓶颈的方法，改进了一些图像分类和语言模型任务的性能表现。

Mar, 2018

深度学习的训练简化与模型简化：一种最小化反向传播方法

该研究提出了一种基于梯度稀疏化和模型简化的技术来降低神经网络的训练和推断计算开销，并且在不降低模型准确率的情况下，实现了对模型的自适应简化，具有很高的应用价值。

Nov, 2017