Aug, 2023

赋能视觉语言模型来遵循交替视觉语言指令

TL;DR综合评估了多模态大型语言模型的指导遵循能力,并引入了I4基准测试,提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略,从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型Cheetah,达到了I4中所有任务的零样本表现的最新水平,并与当前MME基准的最新指导优化模型相比具有竞争力的性能。