DST-Det: 开放词汇目标检测的简单动态自训练
提出一种基于DETR模型和Transformer模型的开放词汇检测器OV-DETR,该模型能够通过自然语言或示例图像输入,检测任何物体。通过在LVIS和COCO数据集上进行广泛实验,该模型证明了显著的性能提升。
Mar, 2022
本文提出一种名为DetPro的新方法,以学习基于预先训练的视觉-语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分级方案,用于分离定制提示训练中的图像前景中的建议。通过将DetPro与状态-of-the-art的开放世界对象检测器ViLD组装在一起,并在LVIS以及Pascal VOC,COCO,Objects365数据集上进行实验,实验结果表明,我们的DetPro在所有设置中都优于基线ViLD,例如在LVIS的新颖类上提高了3.4 APbox和3.0 APmask。
Mar, 2022
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前n个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在COCO数据集上比现有方法表现优秀,AP_novel达到了40.5。
Oct, 2023
通过利用预训练的视觉和语言模型(如CLIP)的零样本能力,结合伪区域标注的外部数据源,提出了一种在CLIP嵌入空间中通过线性混合虚拟生成接近新颖类的代理新颖类的新颖而简单的技术,该技术能够在整体新颖类分布上改进开放词汇目标检测模型的泛化能力,并在LVIS和COCO等各种开放词汇目标检测基准上表现出优越的新颖类分类性能。
Dec, 2023
利用简单的图像级别分类方法(Simple Image-level Classification)结合上下文感知的检测得分(Context-Aware Detection Scoring)模块,从全局视角利用CLIP模型的全局知识来优化当前OVOD模型,以便检测小型、模糊或遮挡的新颖/基础类别的难以检测的目标。
Dec, 2023
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为GenerateU的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了GenerateU的强大的零样本检测性能。
Mar, 2024
研究着重探讨开放词汇对象检测 (OVOD) 中的问题,包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性,并提出了一种后处理方案(AggDet),通过两种先进的衡量方法来调整信心分数和恢复误判的对象,并在OV-COCO和OV-LVIS基准上取得了显著的性能提升。
Apr, 2024
提出了OVLW-DETR,一种部署友好型的开放词汇检测器,它具有出色的性能和低延迟,通过从视觉-语言模型(VLM)提取词类名嵌入来对齐其检测器,无需额外的融合模块,OVLW-DETR具有灵活性、部署友好性,其在标准零距离LVIS基准测试上优于现有的实时开放词汇检测器。
Jul, 2024