CastDet: 以CLIP激活的师生学习实现开放词汇空中目标检测
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种OVD方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR方法在OVD-COCO基准测试中取得了最佳表现,并相对于先前最先进水平获得了2.8的AP$_{50}$绝对增益。
Sep, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
我们提出了一种新颖的无源物体检测(SFOD)方法,利用对比式语言-图像预训练(CLIP)引导生成伪标签进行自我训练,以实现在领域适应中的准确学习。实验结果表明,我们的方法优于其他比较算法。
Jan, 2024
本文旨在使用仅有少量示例来进行卫星图像中的目标检测,从而使用户能够使用最少的注释来指定任何目标类。我们探讨了来自开放词汇检测和遥感领域的最新方法和思路。我们基于传统的两阶段架构开发了一个少样本目标检测器,其中分类块被基于原型的分类器替代。我们使用大规模预训练模型构建类参考嵌入或原型,并与区域建议内容进行标签预测。另外,我们提出在可用的训练图像上微调原型,以提高性能并学习类似类别之间的差异,例如飞机类型。我们对包含具有挑战性和罕见对象的两个遥感数据集进行了广泛评估。此外,我们研究了视觉和图像文本特征的性能,即DINOv2和CLIP,包括专门针对遥感应用的两个CLIP模型。结果表明,视觉特征在很大程度上优于视觉语言模型,因为后者缺乏必要的领域特定词汇。最后,尽管训练参数很少,但开发的检测器在SIMD和DIOR数据集上表现出优于全监督和少样本方法的性能。
Mar, 2024
研究着重探讨开放词汇对象检测 (OVOD) 中的问题,包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性,并提出了一种后处理方案(AggDet),通过两种先进的衡量方法来调整信心分数和恢复误判的对象,并在OV-COCO和OV-LVIS基准上取得了显著的性能提升。
Apr, 2024
对于开放世界的部署,目标检测器检测和标记新对象的能力对很多实际应用非常关键。本研究提出了一种名为Open-Set Object Detection and Discovery (OSODD)的新任务,并且提出了一种称为Open-Set Regions with ViT features (OSR-ViT)的检测框架作为解决方案,该框架将无类别假设的倡议网络与强大的ViT-based分类器相结合。我们的评估结果表明,OSR-ViT在性能上远超过现有的有监督方法,并且在低数据场景中表现出色,即使使用少量的训练数据也能优于有监督基线模型。
Apr, 2024
本研究解决了开放词汇物体检测在遥感图像中泛化能力不足的问题。通过将任务重新定义为“在地球上定位任何物体”(LAE),并开发LAE-标签引擎,创建了首个大规模的遥感物体检测数据集LAE-1M。研究表明,LAE-1M数据集和LAE-DINO模型的应用显著提升了检测性能,预计将对环境监测等领域产生重要影响。
Aug, 2024
本研究解决了现有空中目标检测方法仅能处理预定义类别的问题,通过引入图像与文本之间的关系,提出了高效的开放词汇检测器OVA-DETR。该方法通过区域-文本对比损失替代传统检测框架中的类别回归损失,从而打破类别限制,显著提高了小物体检测能力和推断速度,实验结果表明其在多个基准数据集上有显著提升。
Aug, 2024
本研究解决了现有航空物体检测算法只能检测预定义类别的问题,提出了开放词汇航空物体检测(OVAD)的新定义。我们提出的CastDet框架结合了多种策略和教师模型,以生成高质量的新物体提议,并通过动态标签队列提升分类能力,显著提高了检测新类别物体的能力和精度。
Nov, 2024