Sep, 2023
MMICL: 视觉语言模型的多模态上下文学习
MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning
TL;DR通过考虑模型和数据的角度,提出了MMICL去解决图像与文本交叉多模态提示的问题,通过无需训练的数据更好地适应用户真实应用中复杂的提示,其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉-语言任务中,特别是在复杂推理基准测试中,MMICL取得了新的最先进的零样本和少样本性能。同时,对ScienceQA-IMG上的实验表明MMICL成功缓解了视觉-语言模型中的语言偏差问题,我们相信这是MMICL卓越性能背后的原因。