2024 年 V3Det 挑战赛:广泛词汇和开放词汇目标检测的方法和结果
我们在 V3Det 数据集上对监督式大规模词汇视觉检测任务进行了研究,通过调整网络结构、改变损失函数和设计训练策略等一系列改进,我们的模型在 V3Det Challenge 2024 的大规模目标检测 (Supervised) 任务和 Open Vocabulary Object Detection (OVD) 任务中取得了出色的排名。
Jun, 2024
提出了一个新的物体检测数据集 V3Det,包含着丰富的边界框和类别层次结构,可以用于 vast 和 open vocabulary 的物体检测任务。
Apr, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制,并提出了一种新的任务 Open-vocabulary MOT,进一步开发出一种数据效率优异的开放词汇跟踪器 OVTrack,通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性,最终在大规模的 TAO 基准测试上取得了最新的最优效果。
Apr, 2023
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。
Apr, 2023
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
Apr, 2021
本文介绍了一个新型的大规模基准数据集 BigDetection,它通过整合多个现有数据集并提供更大样本数量、更统一的标注体系,可以用于改进物体检测算法的预训练效果,并已被证明是一个有效的检测方法评估标准。
Mar, 2022
我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度,并通过对几种最先进的开放词汇物体检测器的评估,发现大多数现有方法难以准确捕捉和区分物体的细节,并总结了当前方法的局限性和有望克服这些缺点的研究方向。
Nov, 2023
Object2Scene 和 L3Det 是用于开放词汇 3D 物体检测的首个方法,通过引入大规模的 3D 物体数据集,将物体插入到 3D 场景中来丰富 3D 场景数据集的词汇,并在不同数据集的 3D 对象之间缓解领域差异,并证实了其在 OV-ScanNet-200 基准测试中的有效性。
Sep, 2023