开放世界中的物体检测:通向全能物体检测
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为 GenerateU 的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了 GenerateU 的强大的零样本检测性能。
Mar, 2024
本文介绍了一个新的计算机视觉问题:“开放领域物体检测”,其中模型的任务是在未经明确监督的情况下识别未引入的对象,并在逐步接收相应标签时增量学习这些已识别的未知类别。阐述了该问题,并提供了一种名为 ORE 的解决方案,基于对比聚类和基于能源的未知物体识别。我们的实验评估和消融研究分析了 ORE 在实现开放世界目标方面的功效。同时,我们发现确定和表征未知实例有助于减少增量对象检测设置中的混淆,我们在没有额外的方法论努力下实现了最先进的性能。希望我们的工作能吸引更多关于此全新但至关重要的研究方向的研究。
Mar, 2021
本文提出了一种名为 Universal-RCNN 的新型通用目标检测器,引入了图传递学习,在多个数据集之间传播相应的语义信息以达到语义上的一致性,并在多个物体检测基准测试中取得了最先进的结果(mAP:COCO 上的 49.1%)。
Feb, 2020
本研究提供一个统一的视角:语义拓扑,该限制为开放式对象检测器建立了具有辨别特征表示和一致关系的物体分类,使其能够区分已知和未知对象,并且在增量学习时保持已知对象特征的准确性。实验证明,语义拓扑可以显著超过当前最先进的开放式对象检测器,在绝对开放集误差方面从 7832 降至 2546,展示了语义拓扑在开放式对象检测中的内在优越性。
Oct, 2021
为了解决现有网络对未注释区域默认为负样本的问题,引入了一种数据增广和训练方法,称为 Learning to Detect Every Thing (LDET)。在 LDET 中,实现将带注释物体贴在一张采样自原始图像局部区域的背景图像上,然后将训练过程分为两部分进行,最终在包括 COCO、UVO 和 Cityscapes 等多个数据集上获得了优异的结果。
Dec, 2021
本研究提出一种方法,从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释,以扩大训练基础类别的范围,并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。
Nov, 2021
本研究旨在通过重新定义任务的方式,在无监督域适应的条件下构建一个无偏的前景预测器,利用领域内不变的前景特征学习预测器,从而实现对外观变化的应对能力,本方法在各种检测框架和无监督域适应方法中可实现自适应,经 OWOD 评估验证其在性能上达到了最新水平。
Nov, 2023
YOLO-World is an innovative approach that enhances the You Only Look Once (YOLO) series of detectors with open-vocabulary detection capabilities through vision-language modeling, achieving high efficiency and accuracy in detecting a wide range of objects in a zero-shot manner.
Jan, 2024
本文提出了 UVO(未识别视频对象),这是一个用于视频中开放世界类无关对象分割的新基准,由于其更大,更具挑战性且可以用于目标跟踪和超像素分割等其他应用,因此可用于研究人员开发新的方法。
Apr, 2021