PYRA: 并行激活反馈以提高训练与推断的效率的任务适应

Mar, 2024

PYRA: 并行激活反馈以提高训练与推断的效率的任务适应

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation

Yizhe Xiong, Hui Chen, Tianxiang Hao, Zijia Lin, Jungong Han...

TL;DR我们提出了一种新颖的并行适应重新激活（PYRA）方法，用于训练和推理效率高的任务适应，通过并行产生自适应权重和标记激活策略，以在大规模基础模型中同时保持训练和推理的效率。

Abstract

Recently, the scale of transformers has grown rapidly, which introduces considerable challenges in terms of training overhead and inference efficiency in the scope of task adaptation. Existing works, namely Param

transformers task adaptation parameter-efficient fine-tuning model compression parallel yielding re-activation

发现论文，激发创造

PETRA: 并行端到端训练与可逆架构

我们介绍了一种用于并行计算深度模型训练的 PETRA 替代方法，它通过反向传播和单一参数版本的保持来解决权重存储的问题，并在 CIFAR-10、ImageNet32 和 ImageNet 上展示了其与后向传播相比具有竞争性的准确性。

Jun, 2024

Hydra：多头低秩适应，参数高效微调

该论文研究了一种名为 Hydra 的适应方法，它基于并行和顺序适应支路学习到了新的和通用的特征，在 fine-tuning 过程中能够探索更广泛的最优点范围。此外，该方法还利用预训练权重经过线性组合来明确 leverages the pre-trained weights 的适应方法，并改善了学习特征在不同下游任务中的泛化性能。通过一系列实验证明了 Hydra 方法的高效性和卓越性能，并展示了它在各种应用中的潜在影响和效果。

Sep, 2023

从 PEFT 到 DEFT：在 Transformer 中减少激活密度的参数高效微调

本研究提出了一种新的密度损失方法，促进预训练模型中更高的激活稀疏性，从而实现有效的模型自适应。实验证明，使用我们的方法 DEFT 在不降低下游任务性能的情况下，可以在 RoBERTa_Large 上减少激活密度达到 50.72％，在 Flan-T5_XXL（11B）上分别减少编码器密度为 53.19％，解码器密度为 90.60％，相较于使用 GLUE 和 QA（SQuAD）基准的 PEFT。我们还展示 DEFT 可以与量化和修剪模型互补使用。

Feb, 2024

有效且参数优化的复用微调模型

提出了针对使用多个经过精调的特定任务模型的参数高效重用方法 PERU。通过稀疏任务向量注入到合并模型中，通过截断幅值来创造 PERU-FFT，以重用完全精调的模型。通过奇异值分解来近似 LoRA 矩阵，提出了使用低秩矩阵重用 LoRA 精调模型的 PERU-LoRA。在计算机视觉和自然语言处理任务上进行了大量实验证明了该方法的有效性和参数效率。与现有的重用模型方法相比，提出的 PERU-FFT 和 PERU-LoRA 取得了明显优势，并且在性能上与每个任务使用精调模型相当。

Oct, 2023

大型 Transformer 的循环适应

本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法，可以在保持高模型质量的情况下，大大降低训练的内存消耗和 GPU 能源使用，特别适用于微调大型 Transformers 模型。

May, 2023

针对 Transformer 的预训练和推理的并行注意力和前馈网络设计

本文介绍了并行注意力和前馈网络设计（PAF），以提高 Transformer 模型的效率，并评估了它在语言理解任务中的性能与速度表现，与 Series Attention 和 Feed-Forward Net Design 相比，PAF 设计可以实现 1.5 倍到 2 倍的速度提升。

May, 2023

Context-PEFT: 高效多模态、多任务微调

提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法（PEFT）框架，它通过 LoRA、BitFit 和 IA3 等技术，在几乎不需要可训练参数和 GPU 内存的情况下，展示了与预训练模型完全微调相当的性能，然而，在多模态微调中，经常需要进行架构修改或完全微调。为了解决这个问题，我们提出了 Context-PEFT，它根据令牌的领域学习不同的适配器参数组，这种方法使得可以实现类似 LoRA 的权重注入，而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估，在类似的数据限制下，优于完全微调，并同时提供了更高的参数效率和计算经济性的解决方案。

Dec, 2023

减少大型 Transformer 模型中的激活重新计算

本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练，并介绍了两种新颖且非常简单的技术：序列并行和选择性激活重算，这些技术几乎消除了重新计算激活的需要，同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。

May, 2022

基于原型的超适配器用于高效的多任务调优

基于 Protoype 的 HyperAdapter（PHA）是一个建立在 adapter-tuning 和超网络的新框架，它采用实例密集检索器和原型超网络以更有效地生成条件模块，从而在多任务学习和少样本迁移学习中与现有的参数有效微调（PEFT）方法相比具有可比较的性能改进，并在数据规模较小时，与其他强基准相比，取得了显著的优势。基于对各种数据集的大量实证实验，我们证明 PHA 在可训练参数、模型精度和样本效率之间取得了更好的平衡。

Oct, 2023

RoSA：鲁棒适应实现准确的参数高效微调

我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法（PEFT），我们提出了一种新的 PEFT 方法称为 Robust Adaptation（RoSA），通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件，有效地逼近全精调（FFT）解决方案的性能，在需要进行精细调整以获得良好性能的挑战性生成任务中，如小学数学和 SQL 查询生成，我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持，以在训练算法中补充，具体为稀疏 GPU 内核，实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。

Jan, 2024