Dec, 2023
如何建立适合上下文内的序列用于视觉问答
How to Configure Good In-Context Sequence for Visual Question Answering
Li Li, Jiawei Peng, Huiyi Chen, Chongyang Gao, Xu Yang
TL;DR大型视觉语言模型通过上下文学习在自然语言处理中取得成功后,研究人员开发了具有上下文学习能力的大型视觉语言模型(LVLMs)。然而,在使用 LVLMs 实现上下文学习时,研究人员通常采用最简单的方式,如随机抽样来配置上下文序列,从而导致结果不理想。为了提高上下文学习性能,本研究以视觉问答(VQA)为案例研究,探索了多样化的上下文配置来寻找有效的配置,并通过改变上下文序列观察 LVLM 输出的变化,以改进我们对 LVLM 的理解。通过在三个 VQA 数据集上进行详尽的实验,我们揭示了应用的 LVLM 的三个重要内在性质,并证明了哪些策略可以始终改善上下文学习的 VQA 性能。