Jun, 2024

图像中的视觉针在感知和描述的背景中很容易迷失

TL;DRLoCoVQA 是一个用于评估视觉语言模型(VLM)中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力,表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。