无需训练的自信度聚合增益对开放词汇物体检测的改进
提出一种基于DETR模型和Transformer模型的开放词汇检测器OV-DETR,该模型能够通过自然语言或示例图像输入,检测任何物体。通过在LVIS和COCO数据集上进行广泛实验,该模型证明了显著的性能提升。
Mar, 2022
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。
Nov, 2022
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
计算机视觉中的目标检测在最近几年取得了显著进展,从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测,然而,当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力,这并不能提供一个系统、细粒度和准确的OVD模型能力的基准。本文提出了一个名为OVDEval的新基准,包括9个子任务,并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建,提供了具有挑战性的负样本,以考验模型对视觉和语言输入的真正理解。此外,我们还发现了在这些细粒度标签数据集上对模型进行基准测试时,流行的平均精度(AP)指标存在问题,并提出了一种称为非极大值抑制平均精度(NMS-AP)的新指标来解决这个问题。广泛的实验结果表明,现有的顶级OVD模型在除了简单对象类型之外的新任务上都失败了,证明了所提出数据集在指出当前OVD模型的弱点并引导未来研究方面的价值。此外,所提出的NMS-AP指标通过实验证明,它提供了对OVD模型的更真实评估,而传统AP指标产生了误导性的结果。数据可在https://github.com/om-ai-lab/OVDEval上获取。
Aug, 2023
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种OVD方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR方法在OVD-COCO基准测试中取得了最佳表现,并相对于先前最先进水平获得了2.8的AP$_{50}$绝对增益。
Sep, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前n个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在COCO数据集上比现有方法表现优秀,AP_novel达到了40.5。
Oct, 2023
通过利用预训练的视觉和语言模型(如CLIP)的零样本能力,结合伪区域标注的外部数据源,提出了一种在CLIP嵌入空间中通过线性混合虚拟生成接近新颖类的代理新颖类的新颖而简单的技术,该技术能够在整体新颖类分布上改进开放词汇目标检测模型的泛化能力,并在LVIS和COCO等各种开放词汇目标检测基准上表现出优越的新颖类分类性能。
Dec, 2023
利用简单的图像级别分类方法(Simple Image-level Classification)结合上下文感知的检测得分(Context-Aware Detection Scoring)模块,从全局视角利用CLIP模型的全局知识来优化当前OVOD模型,以便检测小型、模糊或遮挡的新颖/基础类别的难以检测的目标。
Dec, 2023