带伪边界框标签的开放词汇目标检测

Nov, 2021

带伪边界框标签的开放词汇目标检测

Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes

Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu...

TL;DR本研究提出一种方法，从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释，以扩大训练基础类别的范围，并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。

Abstract

Despite great progress in object detection, most existing methods are limited to a small set of object categories, due to the tremendous human effort needed for instance-level bounding-box annotation. To alleviate the problem, recent →

发现论文，激发创造

使用字幕的开放词汇物体检测

本文提出了一种称为开放词汇物体检测的新型物体检测问题，利用有限数量的物体分类边界框注释和图像-标题对来训练物体检测器，可以在更低的成本下覆盖更广泛的物体范围，成功地解决了物体检测中监督要求高的问题，并且更具实用性和效率，可以检测和定位那些未在训练过程中提供边界框注释的物体，无监督和零样本方法都无法做到如此高的准确性。

Nov, 2020

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上，我们的方法在新颖类别上取得了36.6的AP50表现，绝对值超过了以前的最佳性能。对于LVIS，我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP，总体提高3.4。

Jul, 2022

利用视觉和语言模型开发目标检测算法的无标签数据

利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。

Jul, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像-文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在LVIS等新类别上实现了32.0％的mAP和21.7％的掩膜mAP等卓越性能。

Nov, 2022

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前OVOD方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

走向开放词汇学习：综述

本文综述了开放式词汇学习的最新动态，强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较，并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现，开放式词汇学习方法在实践中更具广泛性、有效性和实用性，未来仍有许多探索余地。

Jun, 2023

改进开放词汇目标检测的伪标签

通过在线自训练和分割融合头以减少预训练视觉语言模型生成的噪声伪标签并提高开放词汇目标检测性能。

Aug, 2023

面向检测的图像-文本预训练的开放词汇测量

基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像-文本对中学习，我们的方法能够利用对比损失学习到新出现的对象-语义线索，在LVIS和COCO基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

DST-Det: 开放词汇目标检测的简单动态自训练

使用开放词汇的目标检测方法，通过利用预训练的视觉语言模型的零样本分类能力，直接对所有可能的新类别的建议进行分类，而不需要额外的注释或数据集。

Oct, 2023

用于开放式物体检测的生成式区域语言预训练

生成式开放式物体检测是一种更通用、实用的问题，本论文提出了一个名为GenerateU的简单框架，将物体检测作为一个生成问题，可以以自由形式检测密集物体并生成它们的名称，通过广泛的实验验证了GenerateU的强大的零样本检测性能。

Mar, 2024