探索视觉提示在多模态大型语言模型中的可转移性
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。
Jun, 2024
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
为了弥补视觉和语言模态之间的差距,我们提出了 prompt-aware 适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
本文旨在探究现有 VPG 在 VL-LLMs 之间的可迁移性,并通过提出的 VPGTrans 方案,成功在不牺牲性能的情况下将 VPG 从 BLIP-2 OPT $_{2.7B}$ 迁移到了 BLIP-2 OPT $_{6.7B}$,在迁移过程中节省了 10 倍的时间和 10.7% 的训练数据。
May, 2023
通过迭代利用图像和当前的编码信息,我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整(ProMPT),通过多模态提示的方式使视觉 - 语言特征逐步对齐,从而实现从粗糙到准确的分类。在所有设置中,广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。
Apr, 2024
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力,并在三个基准测试上表现出显著的改进。
Apr, 2024
本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务,通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题;通过建立两个新的多语言 MMT 基准数据集,并提出了一种基于视觉提示的有效基准模型 LVP-M3,该模型包括三个阶段(token 编码、语言感知的视觉提示生成和语言翻译),实验结果表明该方法在多语言 MMT 中的有效性。
Oct, 2022