意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。
Jun, 2024
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023
通过使用 Token-wise Adaptive for Multi-modal Prompt Learning (APLe) 在顺序方式中对视觉和语言两个模态的提示进行调整,APLe 解决了视觉 - 语言模型中的挑战,提高了提示学习的性能,具有与最先进技术相媲美的泛化性能。
Jan, 2024
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在 11 个数据集上表现优于现有方法。
Mar, 2024