PaReprop: 快速并行可逆反向传播

CVPRJun, 2023

PaReprop: Fast Parallelized Reversible Backpropagation

Tyler Zhu, Karttikeya Mangalam

TL;DR本研究提出了 PaReprop 算法，该算法能够在反向传播阶段中将激活重新计算的额外计算开销与梯度计算本身并行化，实现记忆高效训练，并比普通可逆训练达到高达 20% 的更高训练吞吐量。

Abstract

The growing size of datasets and deep learning models has made faster and memory-efficient training crucial. reversible transformers have recently been introduced as an exciting new method for extremely

reversible transformers pareprop algorithm memory-efficient training backpropagation training throughput

发现论文，激发创造

PETRA: 并行端到端训练与可逆架构

我们介绍了一种用于并行计算深度模型训练的 PETRA 替代方法，它通过反向传播和单一参数版本的保持来解决权重存储的问题，并在 CIFAR-10、ImageNet32 和 ImageNet 上展示了其与后向传播相比具有竞争性的准确性。

Jun, 2024

减少大型 Transformer 模型中的激活重新计算

本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练，并介绍了两种新颖且非常简单的技术：序列并行和选择性激活重算，这些技术几乎消除了重新计算激活的需要，同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。

May, 2022

在线卷积重参数化

本文提出了在线卷积重参数化（OREPA）方法来减少庞大的训练时间的成本，并探讨了一些更有效的重参数化组件，相较于现有的重参数化模型能够节省约 70％的训练时间内存成本，加速训练速度约 2 倍，并在 ImageNet 上优于以前的方法高达 + 0.6％，在物体检测和语义分割上也取得了一致的改善。

Apr, 2022

可逆视觉 Transformer

本文介绍一种内存高效的 Reversible Vision Transformer 架构设计，将模型深度与 GPU 内存需求解耦，能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试，表明可实现模型复杂度、参数和准确性基本相同的情况下，内存占用减少了多达 15.5 倍，Reversible Vision Transformers 是硬件资源有限培训方案的高效支撑，为更深的模型提供了更快的吞吐量。

Feb, 2023

使用近似激活的反向传播进行内存高效网络训练

本文提出了一种新的反向传播实现，通过使用近似来显著减少内存使用，使用相对较低的精度近似，而不影响训练准确性，并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。

Jan, 2019

LeaPformer：通过学习比例实现线性变压器的自回归和同时任务

通过使用基于位置的重加权函数，我们提出了 Learned Proportions (LeaP) 和 LeaPformers 模型，通过依赖于比例序列重加权的方法和动态比例生成模块，实现了更灵活的注意力集中模式，成功应用于线性化变压器模型，在多个任务上达到了最佳质量和吞吐量的平衡，取得了竞争性的结果。

May, 2024

可逆残差网络：无需存储激活即可反向传播

该研究介绍了一种新型的具有可逆性的深度残差网络，名为 RevNet，能够通过其后续层的激活来精确地重建每一层的激活，从而克服了传统深度残差网络在反向传播过程中所需要大量的存储空间，实现了与相同大小的深度残余网络相似的图像分类准确率。

Jul, 2017

快速 AdvProp

本文介绍了一种名为 Fast AdvProp 的改进 Adversarial Propagation（AdvProp）的方法，通过去除不必要的训练组件，提高了训练速度，并采用不同于其他训练配方的具有纠缠性的学习方法，进一步提高了模型性能，在不增加训练成本的情况下，成功地在多个视觉基准上取得了优异表现。

Apr, 2022

PYRA: 并行激活反馈以提高训练与推断的效率的任务适应

我们提出了一种新颖的并行适应重新激活（PYRA）方法，用于训练和推理效率高的任务适应，通过并行产生自适应权重和标记激活策略，以在大规模基础模型中同时保持训练和推理的效率。

Mar, 2024

大型线性层的高效反向传播优化

该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法，并证明该方法可以通过降低所需内存容量，从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试，结果表明，该方法即使降低了测试准确度，但仍能实现显著的内存消耗优化。

Jan, 2022