Nov, 2023

理解和优化视觉-语言模型中的上下文学习

TL;DR通过对视觉-语言模型的大规模(LLMs)模型进行背景学习(ICL),本研究发现在VLMs中,ICL主要受到演示的文本信息的驱动,视觉信息对ICL性能的影响较小。鉴于该发现,通过分析模型信息流和不同ICL设置下的模型内部状态,我们提出了一个简单而有效的方法MMICES(Mixed Modality In-Context Example Selection),它在选择演示时考虑了视觉和语言两个模态,并显示出更好的ICL性能。通过大量实验证实了我们的发现,对VLMs的ICL性能的理解和改进进行了支持。