开放词汇目标检测中学习超越名词概念的伪标签器
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前 n 个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在 COCO 数据集上比现有方法表现优秀,AP_novel 达到了 40.5。
Oct, 2023
该研究提出了一种名为 Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023
本研究提出一种方法,从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释,以扩大训练基础类别的范围,并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。
Nov, 2021
通过利用预训练的视觉和语言模型(如 CLIP)的零样本能力,结合伪区域标注的外部数据源,提出了一种在 CLIP 嵌入空间中通过线性混合虚拟生成接近新颖类的代理新颖类的新颖而简单的技术,该技术能够在整体新颖类分布上改进开放词汇目标检测模型的泛化能力,并在 LVIS 和 COCO 等各种开放词汇目标检测基准上表现出优越的新颖类分类性能。
Dec, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
提出了一种新颖的开放式词汇目标检测(OVD)框架,通过学习背景提示来增强检测性能,涉及背景解释、模型过拟合和检测性能等方面的问题。在 OV-COCO 和 OV-LVIS 两个基准数据集上的评估结果表明,我们提出的方法在处理 OVD 任务时优于现有的最先进方法。
Jun, 2024
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种 OVD 方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR 方法在 OVD-COCO 基准测试中取得了最佳表现,并相对于先前最先进水平获得了 2.8 的 AP$_{50}$ 绝对增益。
Sep, 2023