May, 2024

意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征

TL;DR为了弥补视觉和语言模态之间的差距,我们提出了 prompt-aware 适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务(如计数和位置推理)中的有效性。