LST: 阶梯侧调法 — 用于参数和内存有效迁移学习
通过提出深度解耦迁移学习(DTL),我们可以减少大量的 GPU 内存使用和可训练参数,并在准确性上显著超过现有的 PETL 方法,在几个标准基准上达到了新的最先进水平。
Dec, 2023
通过轻量级分层侧网络(HSN)对 Visual Transformers 进行 Hierarchical Side-Tuning (HST) fine-tuning,实现了在各种下游任务中解决计算和内存需求大的问题,包括对象检测、实例分割和语义分割,取得了优于完全微调方法的性能。
Oct, 2023
提出了一种名为 Universal Parallel Tuning (UniPT) 的新型内存高效 PETL 策略,通过轻量级的可学习并行网络进行传输过程,减少内存消耗,并在不同架构上在低内存场景下实现更高的性能。
Aug, 2023
通过使用量化、分离网络和低秩适配器等方法,Quantized Side Tuning (QST) 能够实现大型语言模型(LLMs)的内存高效、快速的微调,并在减少内存占用的同时达到与最先进方法相媲美的性能,可将总内存占用减少最多 7 倍。
Jan, 2024
本文提出了一种高效的参数共享迁移学习 (PROPETL) 方法,它可以在不同层间和任务间共享单一 PETL 模块,然后使用二进制掩码选择共享的原型网络的不同子网络,并将其应用为 PETL 模块进入不同的网络层中,从而达到大幅减少模型参数及存储的效果。实验证明我们提出的模型在各种下游任务上性能优异,模型参数仅为其他 PETL 方法的约 10%。
May, 2023
通过冻结预训练模型的参数和输出,Low-rank Attention Side-Tuning (LAST) 将可训练模块与预训练模型解耦,通过学习预训练模型的中间输出并专注于学习任务特定的知识,从而实现大大减少 GPU 内存和训练时间的高效下游任务适应。
Feb, 2024
我们在第一次研究中探索了用于 VLN 任务的 PETL 方法,并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块:历史交互增强器(HIB)和跨模态交互增强器(CIB),并将其与几种现有 PETL 方法相结合,形成集成 VLN-PETL。对四个主要的 VLN 任务(R2R,REVERIE,NDH,RxR)进行的广泛实验结果表明,我们提出的 VLN-PETL 方法的有效性,它在性能上与全面微调相当甚至更好,并以有希望的优势超过其他 PETL 方法。
Aug, 2023
我们提出了一种参数和计算效率高的转移学习方法,通过动态架构跳过和增强学习来优化视觉语言预训练模型,以减少参数数量和计算冗余,并验证其在视觉语言任务中的优越性。
Sep, 2023
由于预训练语言模型(PLMs)的模型大小迅速增长,全面微调的训练和存储变得难以承受。在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改(例如 Adapter 和 LoRA)整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数,这些技术的性能与全面微调方法相当。然而,过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降,而现有的 PET 技术(例如 VL-Adapter)忽视了这些关键问题。在本文中,我们提出了一种视觉与语言参数高效调整(VL-PET)框架,通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵,可以从我们的框架实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地,我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%(3.41%),相比 LoRA 提升了 3.37%(7.03%)(在 BART-base 和 T5-base 模型上)。此外,我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果,使其实现显著的性能提升。我们的代码可在此 https URL 获得。
Aug, 2023
本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法,通过梯度反向传播高速公路实现低秩适配器,可以在保持模型性能相当的情况下,节省高达 62.2% 的训练存储器和 26.2% 的训练时间。
Jun, 2023