May, 2024
意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for
Multimodal Large Language Models
TL;DR为了弥补视觉和语言模态之间的差距,我们提出了prompt-aware适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务(如计数和位置推理)中的有效性。