开放式词汇属性检测

CVPRNov, 2022

Open-vocabulary Attribute Detection

María A. Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox

TL;DR本论文提出了开放词汇属性检测（OVAD）任务和对应的 OVAD 基准，旨在探究视觉语言模型中学习的物体级属性信息，并提供了一个干净的、密集注释的测试集和一个基准方法，包含了 117 种属性类别和 80 种物体类别的 1.4 百万注释，并通过研究几个基础模型的属性检测性能来展示基准的价值。

Abstract

vision-language modeling has enabled open-vocabulary tasks where predictions can be queried using any text prompt in a zero-shot manner. Existing open-vocabulary tasks focus on object classes, whereas research on object attributes is limited due to the lack of a reliable attribute-focu

vision-language modeling open-vocabulary attribute detection ovad benchmark object-level attribute information ms coco

发现论文，激发创造

如何评估检测的泛化能力？一种用于综合开放词汇检测的基准测试

计算机视觉中的目标检测在最近几年取得了显著进展，从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测，然而，当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力，这并不能提供一个系统、细粒度和准确的 OVD 模型能力的基准。本文提出了一个名为 OVDEval 的新基准，包括 9 个子任务，并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建，提供了具有挑战性的负样本，以考验模型对视觉和语言输入的真正理解。此外，我们还发现了在这些细粒度标签数据集上对模型进行基准测试时，流行的平均精度（AP）指标存在问题，并提出了一种称为非极大值抑制平均精度（NMS-AP）的新指标来解决这个问题。广泛的实验结果表明，现有的顶级 OVD 模型在除了简单对象类型之外的新任务上都失败了，证明了所提出数据集在指出当前 OVD 模型的弱点并引导未来研究方面的价值。此外，所提出的 NMS-AP 指标通过实验证明，它提供了对 OVD 模型的更真实评估，而传统 AP 指标产生了误导性的结果。数据可在 https://github.com/om-ai-lab/OVDEval 上获取。

Aug, 2023

细节决定成败：评估针对细节理解的开放词汇物体检测器

我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度，并通过对几种最先进的开放词汇物体检测器的评估，发现大多数现有方法难以准确捕捉和区分物体的细节，并总结了当前方法的局限性和有望克服这些缺点的研究方向。

Nov, 2023

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前 OVOD 方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

野外视觉属性预测学习

本研究提出一种用于预测对象视觉属性的大规模数据集，通过多标签分类解决对象属性预测问题，并采用多种技术来解决大量属性、标签稀疏性、数据不平衡和对象遮挡等问题，其中包括使用低级和高级 CNN 特征、多跳关注、重新加权和重新抽样技术、负标签扩展和监督属性感知对比学习算法，并取得了超过现有技术水平的 3.7 mAP 和 5.7 F1 值的改进。

Jun, 2021

开放词汇视频异常检测

这篇论文提出了一种能够利用预训练的大型模型来检测和分类已知和未知异常的开放词汇视频异常检测方法，并通过引入语义知识和合成异常来提高模型的性能。

Nov, 2023

分布变化下基于开放词汇的基础对象检测鲁棒性研究

该研究提供了对三种最新的开放词汇基础目标检测模型（OWL-ViT、YOLO World 和 Grounding DINO）的零样本能力的全面鲁棒性比较，通过在包含分布转移的 COCO-O 和 COCO-C 基准上进行实验揭示了模型鲁棒性的挑战。

Apr, 2024

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

视觉语言辅助属性学习

本文提出了一种利用可用的视觉 - 语言知识来改进模型学习的方法，通过一个现成的视觉 - 语言模型辅助，预测每个缺失的属性标签的可能性，在训练中选择忽略那些得分较高的标签，该方法在对新整理的 VAW 数据集上实现了最先进的性能，定性评估证明了该方法在预测更完整属性方面的能力。

Dec, 2023

利用学习背景提示来发现开放词汇对象检测的隐含知识

提出了一种新颖的开放式词汇目标检测（OVD）框架，通过学习背景提示来增强检测性能，涉及背景解释、模型过拟合和检测性能等方面的问题。在 OV-COCO 和 OV-LVIS 两个基准数据集上的评估结果表明，我们提出的方法在处理 OVD 任务时优于现有的最先进方法。

Jun, 2024