Jun, 2024
图像中的视觉针在感知和描述的背景中很容易迷失
Losing Visual Needles in Image Haystacks: Vision Language Models are
Easily Distracted in Short and Long Contexts
TL;DRLoCoVQA是一个用于评估视觉语言模型(VLM)中的长篇上下文抽取推理的动态基准生成器。该测试评估了VLM在回答问题时如何忽略无关信息的能力,表明目前的最先进VLM在许多长篇上下文应用中缺乏这种关键能力。