Mar, 2024
面向视觉与语言模型的多模态上下文学习
Towards Multimodal In-Context Learning for Vision & Language Models
TL;DR通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。