跨语言模型传递视觉提示生成器

May, 2023

Transfer Visual Prompt Generator across LLMs

Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li...

TL;DR本文旨在探究现有 VPG 在 VL-LLMs 之间的可迁移性，并通过提出的 VPGTrans 方案，成功在不牺牲性能的情况下将 VPG 从 BLIP-2 OPT $_{2.7B}$ 迁移到了 BLIP-2 OPT $_{6.7B}$，在迁移过程中节省了 10 倍的时间和 10.7％的训练数据。

Abstract

While developing a new vision-language LLM (vl-llm) by pre-training on tremendous image-text pairs from scratch can be exceedingly resourc

vl-llm vpg transferability transfer learning pre-training vision-language

发现论文，激发创造

通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

本研究探讨了多模态大型语言模型的性能，通过利用视觉适配器将视觉表示与语言模型相结合，在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件，名为多示例视觉提示生成器（MIVPG），通过利用图像或样本相同的补丁之间的实例相关性，将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估，结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。

Jun, 2024

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高 5 倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像 - 文本模型应用于视频 - 语言生成任务。

Oct, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

解耦语言预训练引导视觉 - 语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像 - 文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

文本生成的转移提示学习

本文提出一种基于提示的文本生成方法（PTG），采用预训练语言模型，在面对数据匮乏的情况下通过学习一组源提示并将其转移为目标提示执行目标生成任务，设计了一个自适应注意机制以得出目标提示，实验结果表明 PTG 针对多个任务产生了有竞争力的结果，源提示已开放并可用于未来研究。

May, 2022

集合级指导攻击：增强视觉 - 语言预训练模型的对抗迁移能力

通过对最近的 VLP 模型的对抗性传递性进行第一次研究，我们观察到现有方法在传递性方面表现较低，这部分原因是由于对跨模态交互的利用不足。因此，我们提出了一种高传递性的集合级引导攻击（SGA）方法，该方法充分利用模态交互，并结合保留对齐的增强和跨模态引导。实验结果表明，SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例，在多个下游视觉语言任务中，SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率，比现有技术至少提高了 9.78％，最高可达 30.21％。

Jul, 2023

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023