READ-PVLA: 低资源视频 - 语言建模中的参数高效迁移学习的循环适配器及部分视频 - 语言对齐

AAAIDec, 2023

READ-PVLA: 低资源视频 - 语言建模中的参数高效迁移学习的循环适配器及部分视频 - 语言对齐

READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling

PDF

Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Khoi Le, Zhiyuan Hu...

TL;DR针对预训练大规模 Transformer 模型在视频 - 语言建模任务中存在的存储成本高和训练不稳定等问题，本文提出了一种轻量级适配器方法，通过引入循环计算和部分最优传输来捕捉视频帧和文本单词之间的时间关系，以及保留任务相关信息，并在多个低资源时间语言定位和视频 - 语言概括基准测试中取得显著优于现有的微调策略的效果。

Abstract

Fully fine-tuning pretrained large-scale transformer models has become a popular paradigm for video-language modeling tasks, such as temporal language grounding and video-language summarization. With a growing number of tasks and limited training data, such full fine-tuning approach le

pretrained transformer models video-language modeling lightweight adapters temporal relations task-related information

发现论文，激发创造

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

大型 Transformer 的循环适应

本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法，可以在保持高模型质量的情况下，大大降低训练的内存消耗和 GPU 能源使用，特别适用于微调大型 Transformers 模型。

May, 2023

PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

我们的研究表明，渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器，我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法，并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%，从而实现了显著的效率提升。

Feb, 2024

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

本文提出了一种新的建模框架，将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程，其中，投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中，适配器调谐视觉 - 语言模型需要处理异种图，为此，我们提出了一种新的适配器架构 $p$-adapter，在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验，包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。

Dec, 2023

VidLA: 视频 - 语言对齐的大规模实现

我们提出了 VidLA，这是一种用于大规模视频 - 语言对齐的方法，通过在不同时间分辨率上使用一组数据令牌，以层次化的方式捕捉短程和长程的时间依赖关系，并通过简单的双塔架构，使用预训练的图像 - 文本基础模型来提高最终性能。此外，我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集，包含不同长度的视频片段，以帮助在不同时间尺度下提取更好的表示。实验证明，我们的方法在多个检索基准上超过了现有的最先进方法，特别是在较长的视频上，并在分类基准上具有竞争力。

Mar, 2024

PLLaVA：基于图像到视频的无参数 LLaVA 扩展用于视频密集字幕

通过引入一种简单但有效的汇聚策略，本文将图像 - 语言预训练模型应用于视频理解任务，并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。

Apr, 2024

面向时序视频定位的预训练语言模型参数高效集成

探讨了在 Temporal Video Grounding (TVG) 任务中利用预训练语言模型 (PLM) 的效果，结合现有方法使用不同适配器降低额外参数的影响，结果表明适配器能够在保证性能的情况下，大大减少计算成本，并在三个挑战性的数据集上发现，通过对 PLMs 进行微调，TVG 模型可以极大地受益于 PLM。

Sep, 2022

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

基于稀疏相关适配器的高效文本 - 视频检索

使用一种称为 RAP 的稀疏且相关的 AdaPter 模型，通过在少数参数化层上进行预训练模型的微调，以提供高效的文本视频检索。RAP 配备了两个必要特征：时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制，RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。

May, 2024

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022