Mar, 2024

视觉语言模型时代的开放集识别

TL;DR视觉语言模型 (Vision-Language Models, VLMs) 不是开放集模型,因为它们通过有限的查询集引入了闭合集的假设,使其容易受到开放集条件的影响。我们系统地评估了 VLMs 在开放集识别方面的表现,发现它们经常错误地分类不在查询集中的对象,导致在高召回率和高精度调优时出现令人担忧的低精度。我们表明,简单增加查询集的大小以包含更多类别并不能解决这个问题,反而会导致任务性能和开放集性能下降。我们为 VLMs 时代建立了开放集问题的修订定义,定义了一个新的基准和评估协议,以促进在这一重要领域的标准化评估和研究,并在一系列 VLM 分类器和物体检测器上评估了有前景的基线方法,基于预测不确定性和专用负向嵌入。