大型 Transformer 的循环适应

May, 2023

READ: Recurrent Adaptation of Large Transformers

Sid Wang, John Nguyen, Ke Li, Carole-Jean Wu

TL;DR本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法，可以在保持高模型质量的情况下，大大降低训练的内存消耗和 GPU 能源使用，特别适用于微调大型 Transformers 模型。

Abstract

Fine-tuning large-scale transformers has led to the explosion of many AI applications across Natural Language Processing and Computer Vision tasks. However, fine-tuning all pre-trained model parameters becomes impractical as the model size and number of tasks increase. Parameter-effici

transformers parameter-efficient transfer learning recurrent adaption memory-efficient glue benchmark

发现论文，激发创造

READ-PVLA: 低资源视频 - 语言建模中的参数高效迁移学习的循环适配器及部分视频 - 语言对齐

针对预训练大规模 Transformer 模型在视频 - 语言建模任务中存在的存储成本高和训练不稳定等问题，本文提出了一种轻量级适配器方法，通过引入循环计算和部分最优传输来捕捉视频帧和文本单词之间的时间关系，以及保留任务相关信息，并在多个低资源时间语言定位和视频 - 语言概括基准测试中取得显著优于现有的微调策略的效果。

Dec, 2023

RE-Adapt: 大型语言模型的逆向工程适应

通过逆向设计适配器，我们介绍了 RE-Adapt 方法，该方法无需使用额外的数据或训练，可以在新域上对基础模型进行微调，并借助逆向设计的适配器重新适应指令跟踪，以优于其他微调方法。

May, 2024

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

探索密集预测的参数，记忆和时间高效适配器调整：参数高效并不足够

本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法，通过梯度反向传播高速公路实现低秩适配器，可以在保持模型性能相当的情况下，节省高达 62.2% 的训练存储器和 26.2% 的训练时间。

Jun, 2023

AdaptIR：面向预训练图像恢复模型的参数高效多任务适应

提出了 AdaptIR，一种适应预训练恢复模型的新型参数高效迁移学习方法，通过采用多分支入射结构来正交地捕捉局部空间、全局空间和通道交互，以实现在非常低的参数预算下的强大表示。实验证明，该方法仅使用 0.6% 的参数就能达到与全微调相当甚至更好的性能。

Dec, 2023

通过表征编辑提高微调中的参数效率

Parameter Efficient Fine-Tuning (PEFT) 方法和 Representation EDiting (RED) 方法是解决神经模型微调中的可调超参数选择和可训练参数数量减少的关键研究领域和主题，通过对多种模型进行广泛实验，证明了 RED 方法在大型神经模型中的高效性和优越性。

Feb, 2024

LoRETTA：用于大型语言模型超低参数微调的低秩经济张量列车适应

LoRETTA 是一个超参数效率的框架，通过张量列车分解显著减少可训练参数，提供高性能轻量化的支持 LLMs 微调的方法。通过权重参数化和小张量因子来实现微调，LoRETTA 在 LLaMA-2-7B 模型上可实现与大多数广泛使用的 PEFT 方法相近或更好的性能，同时参数少达到高达 100 倍。实验证明该方法有效提高训练效率，具有更好的多任务学习性能和抗过拟合能力。插拔式代码将基于 Huggingface 框架和 PEFT 库发布。

Feb, 2024

Conv-Adapter：探索参数高效的卷积神经网络迁移学习

本文提出了 Conv-Adapter，一种适用于 CV 的参数高效调整方法，通过学习特定任务的高效特征调整使得在各种分类下游任务上表现出色，且具有与传统方法相当的性能，同时适用于检测和分割任务。

Aug, 2022

针对检索任务的细化联合文本和源代码嵌入优化与参数高效微调

基于 Transformer 模型的代码 - 文本检索问题上，我们提出了一种使用参数高效微调技术的微调框架，并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验，我们证明了该微调框架有潜力通过微调最多 0.4％的参数来提高代码 - 文本检索性能。

May, 2024

参数高效的长尾识别

通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Sep, 2023