2024 年 V3Det 挑战赛：广泛词汇和开放词汇目标检测的方法和结果

Jun, 2024

2024 年 V3Det 挑战赛：广泛词汇和开放词汇目标检测的方法和结果

V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results

Jiaqi Wang, Yuhang Zang, Pan Zhang, Tao Chu, Yuhang Cao...

TL;DR通过分析参与者提交的方法和解决方案，我们旨在激励巨大词汇和开放词汇目标检测领域的未来研究方向，推动该领域的进展。

Abstract

Detecting objects in real-world scenes is a complex task due to various challenges, including the vast range of object categories, and potential encounters with previously unknown or unseen objects. The challenges necessitate the development of public benchmarks and challenges to advance the field of →

object detection v3det challenge vast vocabulary open vocabulary research directions

发现论文，激发创造

增强的物体检测：2024 年 V3Det 挑战赛上关于广泛词汇物体检测轨道的研究

我们在 V3Det 数据集上对监督式大规模词汇视觉检测任务进行了研究，通过调整网络结构、改变损失函数和设计训练策略等一系列改进，我们的模型在 V3Det Challenge 2024 的大规模目标检测 (Supervised) 任务和 Open Vocabulary Object Detection (OVD) 任务中取得了出色的排名。

Jun, 2024

V3Det：大规模词汇视觉检测数据集

提出了一个新的物体检测数据集 V3Det，包含着丰富的边界框和类别层次结构，可以用于 vast 和 open vocabulary 的物体检测任务。

Apr, 2023

DST-Det: 开放词汇目标检测的简单动态自训练

使用开放词汇的目标检测方法，通过利用预训练的视觉语言模型的零样本分类能力，直接对所有可能的新类别的建议进行分类，而不需要额外的注释或数据集。

Oct, 2023

基于图像级别分类和去偏置交叉模态对比学习的开放词汇三维检测

OV-3DETIC 是一个开放式词汇的 3D 点云检测器，使用基于图像的分类监督，并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表，从而使点云检测器具有实现开放式词汇检测的能力，并实现了至少 10.77% 的 mAP 绝对值改进。

Jul, 2022

OVTrack: 开放式词汇多目标跟踪

本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制，并提出了一种新的任务 Open-vocabulary MOT，进一步开发出一种数据效率优异的开放词汇跟踪器 OVTrack，通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性，最终在大规模的 TAO 基准测试上取得了最新的最优效果。

Apr, 2023

无需三维注释的开放词汇点云物体检测

本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法，该方法使用图像预训练模型来学习定位各种对象，并连接文本和点云表示，以便根据提示文本对新对象类别进行分类，从而实现开放式词汇 3D 目标检测，同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。

Apr, 2023

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021

BigDetection：用于改善目标检测预训练的大规模基准测试

本文介绍了一个新型的大规模基准数据集 BigDetection，它通过整合多个现有数据集并提供更大样本数量、更统一的标注体系，可以用于改进物体检测算法的预训练效果，并已被证明是一个有效的检测方法评估标准。

Mar, 2022

细节决定成败：评估针对细节理解的开放词汇物体检测器

我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度，并通过对几种最先进的开放词汇物体检测器的评估，发现大多数现有方法难以准确捕捉和区分物体的细节，并总结了当前方法的局限性和有望克服这些缺点的研究方向。

Nov, 2023

Object2Scene：为开放词汇的 3D 检测将对象放入上下文中

Object2Scene 和 L3Det 是用于开放词汇 3D 物体检测的首个方法，通过引入大规模的 3D 物体数据集，将物体插入到 3D 场景中来丰富 3D 场景数据集的词汇，并在不同数据集的 3D 对象之间缓解领域差异，并证实了其在 OV-ScanNet-200 基准测试中的有效性。

Sep, 2023