视觉语言模型时代的开放集识别

Mar, 2024

Open-Set Recognition in the Age of Vision-Language Models

Dimity Miller, Niko Sünderhauf, Alex Kenna, Keita Mason

TL;DR视觉语言模型 (Vision-Language Models, VLMs) 不是开放集模型，因为它们通过有限的查询集引入了闭合集的假设，使其容易受到开放集条件的影响。我们系统地评估了 VLMs 在开放集识别方面的表现，发现它们经常错误地分类不在查询集中的对象，导致在高召回率和高精度调优时出现令人担忧的低精度。我们表明，简单增加查询集的大小以包含更多类别并不能解决这个问题，反而会导致任务性能和开放集性能下降。我们为 VLMs 时代建立了开放集问题的修订定义，定义了一个新的基准和评估协议，以促进在这一重要领域的标准化评估和研究，并在一系列 VLM 分类器和物体检测器上评估了有前景的基线方法，基于预测不确定性和专用负向嵌入。

Abstract

Are vision-language models (VLMs) open-set models because they are trained on internet-scale datasets? We answer this question with a clear no - VLMs introduce closed-set assumptions via their finite

vision-language models open-set models query set open-set recognition predictive uncertainty

发现论文，激发创造

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

走向开放词汇学习：综述

本文综述了开放式词汇学习的最新动态，强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较，并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现，开放式词汇学习方法在实践中更具广泛性、有效性和实用性，未来仍有许多探索余地。

Jun, 2023

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

朝着利用大型语言模型进行开放式视觉识别

本文介绍了 OmniScient 模型（OSM）作为解决物体本地化和识别的挑战的一种新颖的基于大型语言模型（LLM）的掩模分类器，通过以生成方式预测类标签，并在没有人为干预的情况下实现跨数据集训练，并展示了其在处理新概念中的有效性。

Nov, 2023

视觉语言模型校准的关键因素的实证研究

本研究探究了视觉语言模型（VLMs）在不同架构、数据集和训练策略下的校准性能，发现温度缩放显著且一致地改善了校准性能，即使在分布转变和标签集改变的情况下，借此实验结果，我们强调了我们对 VLMs 的理解在关键实际场景中的潜在应用和重要性，旨在更可靠、有效地使用 VLMs。

Feb, 2024

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

视觉语言模型的开放词汇校准

通过调整温度值，根据预测文本标签与基本类之间的距离，我们提出了一种名为距离感知校准（DAC）的简单有效方法，来解决视觉语言模型中存在的置信度校准问题。在 11 个不同的下游数据集上对 7 种不同的提示学习方法进行的实验验证了 DAC 的有效性，并且不影响推理速度。

Feb, 2024