大型线性层的高效反向传播优化

Jan, 2022

Memory-Efficient Backpropagation through Large Linear Layers

Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov...

TL;DR该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法，并证明该方法可以通过降低所需内存容量，从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试，结果表明，该方法即使降低了测试准确度，但仍能实现显著的内存消耗优化。

Abstract

In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform →

neural networks memory reduction backpropagation randomized matrix multiplications gradient estimation

发现论文，激发创造

使用近似激活的反向传播进行内存高效网络训练

本文提出了一种新的反向传播实现，通过使用近似来显著减少内存使用，使用相对较低的精度近似，而不影响训练准确性，并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。

Jan, 2019

Few-Bit Backward: 激活函数的量化梯度用于减少内存占用

本篇论文研究了神经网络训练中的内存占用问题，在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化，以显著减少内存占用和保证相同的收敛性能。

Feb, 2022

深度学习的训练简化与模型简化：一种最小化反向传播方法

该研究提出了一种基于梯度稀疏化和模型简化的技术来降低神经网络的训练和推断计算开销，并且在不降低模型准确率的情况下，实现了对模型的自适应简化，具有很高的应用价值。

Nov, 2017

通过近似和共享反向传播减少微调内存开销

本文主要关注细调预训练大型模型的内存开销问题，从激活函数和层归一化的角度来减轻内存开销，并通过引入 Approx-BP 理论，提出了 GELU 和 SiLU 激活函数的内存高效替代方案，以及 Memory-Sharing Backpropagation 策略来减少内存使用冗余。实验表明，该方法能够降低高达 30% 的内存使用率。

Jun, 2024

在线学习长程依赖关系

本研究通过利用多层网络中的独立递归模块，提出了一种可行的高性能在线学习算法，能够有效地解决递归神经网络中长期信用分配的问题，并通过在合成记忆问题和长距离竞技场基准测试中的表现明确了该算法的有效性，为大脑学习和神经计算提供了新的思路。

May, 2023

基于概率潜在表示的块局部学习

通过引入双网络的反向传播方法和将网络中的层激活视作概率分布的参数，本文提出了一种解决反向传播中锁死和权重传输问题的新方法，从而实现对大型网络的分布式高效训练。相应的实验结果表明了其在多种任务和结构上的优越表现。

May, 2023

用于基于记忆的 Transformer 的内存高效随机方法

我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术，以提高基于内存的 Transformer 的训练效率，该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL，在相似参数下优于基线模型，并在词级语言建模任务上优于基线模型，参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性，该机制在多个 GLUE 任务中表现出相似性能，并降低了标准差约 30%。

Nov, 2023

基于随机哈希的可扩展可持续深度学习

提出了一种基于哈希的新技术，通过只处理少量的节点来显著降低训练和测试深度神经网络的计算成本，该算法只使用了原始模型总乘法数的 5％，同时保持平均精度在 1％以内，其更新始终是稀疏的，使得算法非常适合异步和并行训练，端到端实验展示了该算法的可扩展性和可持续性。

Feb, 2016

高效使用内存的时间反向传播

我们提出了一种新方法来降低通过时间反向传播算法在培训循环神经网络时的内存消耗，这种方法使用动态规划来平衡中间结果的缓存和重新计算之间的折衷，并最小化计算成本。

Jun, 2016

通过矩阵反向传播训练具有结构层的深度网络

本文提出了一种将全局结构化计算形式化整合到深度计算架构中的方法，其核心是开发了一种新的基于矩阵变化的 backpropagation 理论和实践，该方法广泛适用于机器学习或计算感知问题，我们在 BSDS 和 MSCOCO 基准测试中执行视觉分割实验，结果表明端到端训练的基于第二阶池化和归一化切割层的深度网络，使用矩阵反向传播优于没有利用全局层的对应网络。

Sep, 2015