细节决定成败:评估针对细节理解的开放词汇物体检测器
本文提出了一个具有部分分割能力的检测器,可以通过多粒度对齐来预测开放词汇的物体和它们的部件分割,并通过密集语义对应将新物体解析为其部件。该方法在不同数据集上的实验表现优于基线方法,并且具有更好的数据通用性。
May, 2023
本论文提出了开放词汇属性检测(OVAD)任务和对应的 OVAD 基准,旨在探究视觉语言模型中学习的物体级属性信息,并提供了一个干净的、密集注释的测试集和一个基准方法,包含了 117 种属性类别和 80 种物体类别的 1.4 百万注释,并通过研究几个基础模型的属性检测性能来展示基准的价值。
Nov, 2022
计算机视觉中的目标检测在最近几年取得了显著进展,从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测,然而,当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力,这并不能提供一个系统、细粒度和准确的 OVD 模型能力的基准。本文提出了一个名为 OVDEval 的新基准,包括 9 个子任务,并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建,提供了具有挑战性的负样本,以考验模型对视觉和语言输入的真正理解。此外,我们还发现了在这些细粒度标签数据集上对模型进行基准测试时,流行的平均精度(AP)指标存在问题,并提出了一种称为非极大值抑制平均精度(NMS-AP)的新指标来解决这个问题。广泛的实验结果表明,现有的顶级 OVD 模型在除了简单对象类型之外的新任务上都失败了,证明了所提出数据集在指出当前 OVD 模型的弱点并引导未来研究方面的价值。此外,所提出的 NMS-AP 指标通过实验证明,它提供了对 OVD 模型的更真实评估,而传统 AP 指标产生了误导性的结果。数据可在 https://github.com/om-ai-lab/OVDEval 上获取。
Aug, 2023
该研究提供了对三种最新的开放词汇基础目标检测模型(OWL-ViT、YOLO World 和 Grounding DINO)的零样本能力的全面鲁棒性比较,通过在包含分布转移的 COCO-O 和 COCO-C 基准上进行实验揭示了模型鲁棒性的挑战。
Apr, 2024
DVDet 是一个描述符增强的开放词汇检测器,引入条件上下文提示和分层文本描述符,实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。
Feb, 2024
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
Apr, 2021
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022