PaReprop: 快速并行可逆反向传播
我们介绍了一种用于并行计算深度模型训练的 PETRA 替代方法,它通过反向传播和单一参数版本的保持来解决权重存储的问题,并在 CIFAR-10、ImageNet32 和 ImageNet 上展示了其与后向传播相比具有竞争性的准确性。
Jun, 2024
本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练,并介绍了两种新颖且非常简单的技术:序列并行和选择性激活重算,这些技术几乎消除了重新计算激活的需要,同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。
May, 2022
本文提出了在线卷积重参数化(OREPA)方法来减少庞大的训练时间的成本,并探讨了一些更有效的重参数化组件,相较于现有的重参数化模型能够节省约 70%的训练时间内存成本,加速训练速度约 2 倍,并在 ImageNet 上优于以前的方法高达 + 0.6%,在物体检测和语义分割上也取得了一致的改善。
Apr, 2022
本文介绍一种内存高效的 Reversible Vision Transformer 架构设计,将模型深度与 GPU 内存需求解耦,能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试,表明可实现模型复杂度、参数和准确性基本相同的情况下,内存占用减少了多达 15.5 倍,Reversible Vision Transformers 是硬件资源有限培训方案的高效支撑,为更深的模型提供了更快的吞吐量。
Feb, 2023
本文提出了一种新的反向传播实现,通过使用近似来显著减少内存使用,使用相对较低的精度近似,而不影响训练准确性,并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。
Jan, 2019
通过使用基于位置的重加权函数,我们提出了 Learned Proportions (LeaP) 和 LeaPformers 模型,通过依赖于比例序列重加权的方法和动态比例生成模块,实现了更灵活的注意力集中模式,成功应用于线性化变压器模型,在多个任务上达到了最佳质量和吞吐量的平衡,取得了竞争性的结果。
May, 2024
该研究介绍了一种新型的具有可逆性的深度残差网络,名为 RevNet,能够通过其后续层的激活来精确地重建每一层的激活,从而克服了传统深度残差网络在反向传播过程中所需要大量的存储空间,实现了与相同大小的深度残余网络相似的图像分类准确率。
Jul, 2017
本文介绍了一种名为 Fast AdvProp 的改进 Adversarial Propagation(AdvProp)的方法,通过去除不必要的训练组件,提高了训练速度,并采用不同于其他训练配方的具有纠缠性的学习方法,进一步提高了模型性能,在不增加训练成本的情况下,成功地在多个视觉基准上取得了优异表现。
Apr, 2022
我们提出了一种新颖的并行适应重新激活(PYRA)方法,用于训练和推理效率高的任务适应,通过并行产生自适应权重和标记激活策略,以在大规模基础模型中同时保持训练和推理的效率。
Mar, 2024
该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法,并证明该方法可以通过降低所需内存容量,从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试,结果表明,该方法即使降低了测试准确度,但仍能实现显著的内存消耗优化。
Jan, 2022