Feb, 2024

CoLLaVO: 蜡笔大规模语言与视觉模型

TL;DR当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案,即使用蜡笔提示进行指导调整,以提高对象级图像理解能力。此外,我们还提出了双重 QLoRA 学习策略,以在视觉指导调整过程中保持对象级图像理解能力,从而在零样本的多个视觉语言基准测试中取得了显著的进展。