图像中的视觉针在感知和描述的背景中很容易迷失

Jun, 2024

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

Aditya Sharma, Michael Saxon, William Yang Wang

TL;DRLoCoVQA是一个用于评估视觉语言模型（VLM）中的长篇上下文抽取推理的动态基准生成器。该测试评估了VLM在回答问题时如何忽略无关信息的能力，表明目前的最先进VLM在许多长篇上下文应用中缺乏这种关键能力。

Abstract

We present locovqa, a dynamic benchmark generator for evaluating long-context extractive reasoning in vision language models (VLMs).