参数高效调节与通用视觉语言模型的结合

Dec, 2023

参数高效调节与通用视觉语言模型的结合

When Parameter-efficient Tuning Meets General-purpose Vision-language Models

Yihang Zhai, Haixin Wang, Jianlong Chang, Xinlong Yang, Jinan Sun...

TL;DR通过参数高效调优，利用指令调整和多模态对齐的方法，本研究提出了一种新的通用视觉 - 语言模型训练方法 PETAL，其通过独特的模式近似技术，显著减少了训练成本和对重计算资源的依赖，并在语义深度方面进行了改进。实验证明，PETAL 在多个方面超越了现有最先进的方法，同时在少样本设置中也展现了出色的优势。

Abstract

instruction tuning has shown promising potential for developing general-purpose AI capabilities by using large-scale pre-trained models and boosts growing research to integrate multimodal information for creative applications. However, existing works still face two main limitations: th

instruction tuning parameter-efficient tuning multimodal alignment vision-language models few-shot settings

发现论文，激发创造

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

重新审视参数高效调整：我们已经到达目标了吗？

本文对参数节省调整方法（PETuning）的训练和评估进行了首次全面调查。研究发现当前 PETuning 研究中存在问题的验证和测试方法，以及 PETuning 方法的不稳定性，导致结论不可靠。当在真正公平的评估协议下进行比较时，PETuning 无法产生一致的竞争性表现，而在中高资源设置中细调仍然是表现最佳的方法。本文深入探讨了 PETuning 方法的不稳定性原因，观察到可训练参数数量和训练迭代次数是两个主要因素：减少可训练参数和延长训练迭代次数可能会导致 PETuning 方法的稳定性更高。

Feb, 2022

PVP：预训练的视觉参数高效微调

本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架，可有效降低由于高计算和存储成本带来的计算和存储成本，并在低数据环境下实现优异的结果，特别是在贫瘠的视觉分类领域中。

Apr, 2023

用于大型预训练语言模型参数高效微调的神经架构搜索

探讨了一种基于网络剪枝的高效的神经架构搜索方法用于学习预训练模型的参数优化方法 (Parameter-efficient tuning)，并在 GLUE 上的实验结果表明算法的有效性以及 PET 网络结构设计的实际表现。

May, 2023

动态视觉提示调整用于参数高效的迁移学习

参数有效的迁移学习 (PETL) 是一个新兴的研究领域，旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT)，可以为每个图像生成动态的实例级标记，以捕捉每个图像的独特视觉特征，从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验，我们发现 DVPT 方法在性能上优于其他 PETL 方法，甚至在 19 个下游任务中有 17 个超越了完全微调的性能，同时保持了高参数效率。

Sep, 2023

UniPT: 通用并行调优的高效参数和内存迁移学习

提出了一种名为 Universal Parallel Tuning (UniPT) 的新型内存高效 PETL 策略，通过轻量级的可学习并行网络进行传输过程，减少内存消耗，并在不同架构上在低内存场景下实现更高的性能。

Aug, 2023

任意少参数足以适应大规模预训练语言模型

本研究发现模型缩放可以缓解调整方法的设计差异，并使调整方法优化更少的参数以实现全参数微调性能，并探讨了此现象与优化角度的机制，这些结论不仅证明了模型缩放对调整方法的积极影响，还披露了其机制，有助于我们设计更有效和高效的调整方法。

Jun, 2023

VLN-PETL：用于视觉语言导航的参数高效迁移学习

我们在第一次研究中探索了用于 VLN 任务的 PETL 方法，并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块：历史交互增强器（HIB）和跨模态交互增强器（CIB），并将其与几种现有 PETL 方法相结合，形成集成 VLN-PETL。对四个主要的 VLN 任务（R2R，REVERIE，NDH，RxR）进行的广泛实验结果表明，我们提出的 VLN-PETL 方法的有效性，它在性能上与全面微调相当甚至更好，并以有希望的优势超过其他 PETL 方法。

Aug, 2023

遥感图像文本检索的参数高效迁移学习

通过参数高效的迁移学习方法，将自然领域的视觉 - 语言知识有效且高效地转移到遥感领域的图像 - 文本检索任务上，提出了一个新颖而复杂的参数高效转移学习框架，通过预训练的 CLIP 模型、多模态遥感适配器和混合多模态对比学习目标来解决遥感数据中高内部相似性的问题，并在 RSITR 任务上进行了全面的实证研究，结果表明该方法具有很大的应用潜力，可以在实际应用中实现大幅度的训练成本节省，超过传统方法 7-13% 的检索性能并达到与全面微调相媲美甚至更好的性能，为 RS 视觉 - 语言任务提供了新的思路和有用的见解。

Aug, 2023

模式逼近生成优秀的视觉语言提示

本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

May, 2023