HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

Mar, 2022

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both Language and Vision-and-Language Tasks

Zhengkun Zhang, Wenya Guo, Xiaojun Meng, Yasheng Wang, Yadao Wang...

TL;DR本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Abstract

The workflow of pretraining and fine-tuning has emerged as a popular paradigm for solving various NLP and V&L (Vision-and-Language) downstream tasks. With the capacity of pretrained models growing rapidly, how to

transfer learning pretraining fine-tuning parameter-efficient hypernetwork

发现论文，激发创造

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

VLN-PETL：用于视觉语言导航的参数高效迁移学习

我们在第一次研究中探索了用于 VLN 任务的 PETL 方法，并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块：历史交互增强器（HIB）和跨模态交互增强器（CIB），并将其与几种现有 PETL 方法相结合，形成集成 VLN-PETL。对四个主要的 VLN 任务（R2R，REVERIE，NDH，RxR）进行的广泛实验结果表明，我们提出的 VLN-PETL 方法的有效性，它在性能上与全面微调相当甚至更好，并以有希望的优势超过其他 PETL 方法。

Aug, 2023

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

视觉语言预训练模型参数高效微调的实证研究

最近的研究应用了参数高效微调技术（PEFTs）来有效缩小预训练和下游任务之间的性能差距。该研究发现，对于与预训练一致的下游微调任务，数据规模不再影响性能，而可微参数规模的影响并不单调，这种观察可指导 PEFTs 的训练策略选择。

Mar, 2024

UniPELT: 一种统一的参数效率语言模型调节框架

该研究提出了 UniPELT 框架，将不同的 PELT 方法作为子模块，并学习通过门控机制激活最适合当前数据或任务设置的子模块。在 GLUE 基准测试中，UniPELT 相对于其单独包含的最佳 PELT 方法都能够获得 1-4％的收益，并甚至在不同设置下优于 fine-tuning。此外，UniPELT 通常超过单个子模块在每个任务上单独使用的最佳性能上界，表明多个 PELT 方法的混合可能本质上更有效。

Oct, 2021

共享超网络的 Transformer 多任务微调的参数高效方法

本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架，从而在跨任务共享知识的同时，通过任务特定的适配器使模型适应每个单独的任务，并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。

Jun, 2021