Dec, 2023

如何建立适合上下文内的序列用于视觉问答

TL;DR大型视觉语言模型通过上下文学习在自然语言处理中取得成功后,研究人员开发了具有上下文学习能力的大型视觉语言模型(LVLMs)。然而,在使用 LVLMs 实现上下文学习时,研究人员通常采用最简单的方式,如随机抽样来配置上下文序列,从而导致结果不理想。为了提高上下文学习性能,本研究以视觉问答(VQA)为案例研究,探索了多样化的上下文配置来寻找有效的配置,并通过改变上下文序列观察 LVLM 输出的变化,以改进我们对 LVLM 的理解。通过在三个 VQA 数据集上进行详尽的实验,我们揭示了应用的 LVLM 的三个重要内在性质,并证明了哪些策略可以始终改善上下文学习的 VQA 性能。