Mar, 2024

面向视觉与语言模型的多模态上下文学习

TL;DR通过对一些最先进的 VLM(Visual Language Model)进行分析,我们发现它们在执行 ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的 VLM 对齐框架,实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了 21.03% 的 ICL 表现(平均 11.3%),超过了最强 VLM 基线和多种 ICL 基准,并为 VLM 的 ICL 评估贡献了新的基准,并讨论了它们相对于现有技术的优势。