BriefGPT.xyz
Ask
alpha
关键词
dynamic benchmark generator
搜索结果 - 1
图像中的视觉针在感知和描述的背景中很容易迷失
LoCoVQA 是一个用于评估视觉语言模型(VLM)中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力,表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。
PDF
12 days ago
Prev
Next