Nov, 2023

理解和优化视觉 - 语言模型中的上下文学习

TL;DR通过对视觉 - 语言模型的大规模(LLMs)模型进行背景学习(ICL),本研究发现在 VLMs 中,ICL 主要受到演示的文本信息的驱动,视觉信息对 ICL 性能的影响较小。鉴于该发现,通过分析模型信息流和不同 ICL 设置下的模型内部状态,我们提出了一个简单而有效的方法 MMICES(Mixed Modality In-Context Example Selection),它在选择演示时考虑了视觉和语言两个模态,并显示出更好的 ICL 性能。通过大量实验证实了我们的发现,对 VLMs 的 ICL 性能的理解和改进进行了支持。