简化的图像级分类改进开放词汇物体检测
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种 OVD 方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR 方法在 OVD-COCO 基准测试中取得了最佳表现,并相对于先前最先进水平获得了 2.8 的 AP$_{50}$ 绝对增益。
Sep, 2023
本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上,我们的方法在新颖类别上取得了 36.6 的 AP50 表现,绝对值超过了以前的最佳性能。对于 LVIS,我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP,总体提高 3.4。
Jul, 2022
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前 n 个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在 COCO 数据集上比现有方法表现优秀,AP_novel 达到了 40.5。
Oct, 2023
通过使用元提示和实例对比学习方案,我们提出了一种新的框架来解决过拟合、依赖额外数据和复杂训练过程的问题,此框架在检测新类别对象方面显示出优于现有复杂技术训练的方法的良好的泛化能力。
Mar, 2024
提出了一种新颖的开放式词汇目标检测(OVD)框架,通过学习背景提示来增强检测性能,涉及背景解释、模型过拟合和检测性能等方面的问题。在 OV-COCO 和 OV-LVIS 两个基准数据集上的评估结果表明,我们提出的方法在处理 OVD 任务时优于现有的最先进方法。
Jun, 2024
本文研究了在航拍图像中的物体检测问题,提出了一种使用 CLIP 激活的学生 - 教师模型的开放词汇物体检测框架,通过同时生成高质量的候选区域和伪标签来提高新物体的检测性能。
Nov, 2023
研究着重探讨开放词汇对象检测 (OVOD) 中的问题,包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性,并提出了一种后处理方案(AggDet),通过两种先进的衡量方法来调整信心分数和恢复误判的对象,并在 OV-COCO 和 OV-LVIS 基准上取得了显著的性能提升。
Apr, 2024
本文提出了一种简单而有效的方法,用于直接学习任意概念的区域 - 文本对齐,从而在开放词汇目标检测方面取得有竞争力的性能和在任意概念的指称表达理解方面取得显著的改进。
Dec, 2023