跨语言模型传递视觉提示生成器
本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。
Jun, 2024
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024
本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架,利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段,从而实现了快速收敛而不损失性能。实验证明,我们的方法可以将视觉语言模型的训练速度提高 5 倍,而整体性能几乎没有明显影响。此外,我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后,我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像 - 文本模型应用于视频 - 语言生成任务。
Oct, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
该论文提出了一种新的方法,使用 Prompt-Transformer 模型,基于语言数据而不是图像 - 文本配对来预测理想 prompts,从而优化了资源密集型视觉语言预训练过程,提高了大语言模型的性能。
Jul, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
本文提出一种基于提示的文本生成方法(PTG),采用预训练语言模型,在面对数据匮乏的情况下通过学习一组源提示并将其转移为目标提示执行目标生成任务,设计了一个自适应注意机制以得出目标提示,实验结果表明 PTG 针对多个任务产生了有竞争力的结果,源提示已开放并可用于未来研究。
May, 2022
通过对最近的 VLP 模型的对抗性传递性进行第一次研究,我们观察到现有方法在传递性方面表现较低,这部分原因是由于对跨模态交互的利用不足。因此,我们提出了一种高传递性的集合级引导攻击(SGA)方法,该方法充分利用模态交互,并结合保留对齐的增强和跨模态引导。实验结果表明,SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例,在多个下游视觉语言任务中,SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率,比现有技术至少提高了 9.78%,最高可达 30.21%。
Jul, 2023
综合评估了多模态大型语言模型的指导遵循能力,并引入了 I4 基准测试,提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略,从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah,达到了 I4 中所有任务的零样本表现的最新水平,并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。
Aug, 2023