Feb, 2024

大规模视觉语言模型的视域内学习

TL;DR通过引入一种新颖的视觉上下文学习方法(VICL),包括视觉演示检索、目标导向图像摘要和目标导向演示组合,解决了大型视觉语言模型(LVLMs)中上下文学习的挑战,提高了效果,并且进一步调查了演示文本长度和位置对 LVLM 的影响,展示了 ICL 复位特定模型知识的潜力。