PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

Feb, 2024

PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang

TL;DR我们的研究表明，渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器，我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法，并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%，从而实现了显著的效率提升。

Abstract

This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models

progressively aligned language model vision encoders large language models vision-language adapter efficiency improvement

发现论文，激发创造

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

本文提出了一种新的建模框架，将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程，其中，投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中，适配器调谐视觉 - 语言模型需要处理异种图，为此，我们提出了一种新的适配器架构 $p$-adapter，在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验，包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。

Dec, 2023

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

LLaMA-Adapter V2: 参数高效的视觉指令模型

本文介绍 LlaMA-Adapter V2，是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型，可用于多模态推理，对于开放式的视觉指令，具有更强的泛化能力。

Apr, 2023

通过预测分配来建立视觉和语言空间的桥梁

该论文介绍了 VLAP（pretrained vision models 和 large language models 之间的视觉理解的桥梁），通过一种新颖的方法，将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间，从而有效且通用地实现视觉和语言的理解。

Apr, 2024

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

负债正向：统一的双路径适配器用于视觉 - 语言模型

我们通过引入双向学习的概念，创新性地将其应用于微调视觉 - 语言模型，并提出了一种新颖的 DualAdapter 方法，通过同时进行正向选择和负向排除来提高 VLM 在下游任务中的识别准确性。在 15 个数据集上的广泛实验结果验证了所提出的 DualAdapter 方法在少样本学习和域泛化任务中优于现有的最先进方法，并且具有竞争性的计算效率。

Mar, 2024