视觉 - 语言预训练模型的参数和计算高效迁移学习

Sep, 2023

视觉 - 语言预训练模型的参数和计算高效迁移学习

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun...

TL;DR我们提出了一种参数和计算效率高的转移学习方法，通过动态架构跳过和增强学习来优化视觉语言预训练模型，以减少参数数量和计算冗余，并验证其在视觉语言任务中的优越性。

Abstract

With ever increasing parameters and computation, vision-language pre-trained (VLP) models exhibit prohibitive expenditure in downstream task adaption. Recent endeavors mainly focus on parameter efficient transfer learning (PETL) for VLP models by only updating a small number of paramet

vision-language pre-trained models parameter efficient transfer learning computation efficient transfer learning dynamic architecture skipping reinforcement learning

发现论文，激发创造

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

VLN-PETL：用于视觉语言导航的参数高效迁移学习

我们在第一次研究中探索了用于 VLN 任务的 PETL 方法，并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块：历史交互增强器（HIB）和跨模态交互增强器（CIB），并将其与几种现有 PETL 方法相结合，形成集成 VLN-PETL。对四个主要的 VLN 任务（R2R，REVERIE，NDH，RxR）进行的广泛实验结果表明，我们提出的 VLN-PETL 方法的有效性，它在性能上与全面微调相当甚至更好，并以有希望的优势超过其他 PETL 方法。

Aug, 2023

遥感图像文本检索的参数高效迁移学习

通过参数高效的迁移学习方法，将自然领域的视觉 - 语言知识有效且高效地转移到遥感领域的图像 - 文本检索任务上，提出了一个新颖而复杂的参数高效转移学习框架，通过预训练的 CLIP 模型、多模态遥感适配器和混合多模态对比学习目标来解决遥感数据中高内部相似性的问题，并在 RSITR 任务上进行了全面的实证研究，结果表明该方法具有很大的应用潜力，可以在实际应用中实现大幅度的训练成本节省，超过传统方法 7-13% 的检索性能并达到与全面微调相媲美甚至更好的性能，为 RS 视觉 - 语言任务提供了新的思路和有用的见解。

Aug, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

DTL：用于视觉识别的解耦式迁移学习

通过提出深度解耦迁移学习（DTL），我们可以减少大量的 GPU 内存使用和可训练参数，并在准确性上显著超过现有的 PETL 方法，在几个标准基准上达到了新的最先进水平。

Dec, 2023

动态视觉提示调整用于参数高效的迁移学习

参数有效的迁移学习 (PETL) 是一个新兴的研究领域，旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT)，可以为每个图像生成动态的实例级标记，以捕捉每个图像的独特视觉特征，从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验，我们发现 DVPT 方法在性能上优于其他 PETL 方法，甚至在 19 个下游任务中有 17 个超越了完全微调的性能，同时保持了高参数效率。

Sep, 2023

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

本文提出了一种新的建模框架，将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程，其中，投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中，适配器调谐视觉 - 语言模型需要处理异种图，为此，我们提出了一种新的适配器架构 $p$-adapter，在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验，包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。

Dec, 2023

探索密集预测的参数，记忆和时间高效适配器调整：参数高效并不足够

本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法，通过梯度反向传播高速公路实现低秩适配器，可以在保持模型性能相当的情况下，节省高达 62.2% 的训练存储器和 26.2% 的训练时间。

Jun, 2023

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

一个网络，多个掩码：迈向更高效的参数转移学习

本文提出了一种高效的参数共享迁移学习 (PROPETL) 方法，它可以在不同层间和任务间共享单一 PETL 模块，然后使用二进制掩码选择共享的原型网络的不同子网络，并将其应用为 PETL 模块进入不同的网络层中，从而达到大幅减少模型参数及存储的效果。实验证明我们提出的模型在各种下游任务上性能优异，模型参数仅为其他 PETL 方法的约 10%。

May, 2023