使用合成标题进行超球学习的开放世界检测

CVPRApr, 2024

使用合成标题进行超球学习的开放世界检测

Hyperbolic Learning with Synthetic Captions for Open-World Detection

Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo

TL;DR通过将视觉语言模型 (VLMs) 的知识传递进行启发式操作，从而丰富开放词汇的图像描述。同时，采用新的超几何视觉语言学习方法对合成字幕产生的噪音进行缓解，实现了视觉与字幕嵌入之间的层次关系。在各种开放世界检测基准测试 (COCO、LVIS、Object Detection in the Wild、RefCOCO) 上进行了广泛实验，结果表明我们的模型在使用相同的主干网络时，始终优于现有的 GLIP、GLIPv2 和 Grounding DINO 等最先进方法。

Abstract

open-world detection poses significant challenges, as it requires the detection of any object using either object class labels or free-form texts. Existing related works often use large-scale manual annotated caption datasets for training, which are extremely expensive to collect. Inst

open-world detection vision-language models synthetic captions hyperbolic vision-language learning hyperlearner

发现论文，激发创造

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023

CapDet: 统一密集字幕和开放世界检测预训练

本文提出了一种名为 CapDet 的新方法，通过将开放世界检测和密集字幕任务统一到一个框架中，引入额外的密集字幕头生成区域定位的字幕，以预测给定类别列表下的结果或直接生成预测边界框的类别，并证明该方法通过加入字幕任务，提高了检测性能的概括能力，并在密集字幕任务上取得了类似 VG V1.2 上 15.44% 和 VG-COCO 数据集上 13.98% 的 MAP 等方面的最先进性能。

Mar, 2023

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

使用字幕的开放词汇物体检测

本文提出了一种称为开放词汇物体检测的新型物体检测问题，利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器，可以在更低的成本下覆盖更广泛的物体范围，成功地解决了物体检测中监督要求高的问题，并且更具实用性和效率，可以检测和定位那些未在训练过程中提供边界框注释的物体，无监督和零样本方法都无法做到如此高的准确性。

Nov, 2020

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

带伪边界框标签的开放词汇目标检测

本研究提出一种方法，从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释，以扩大训练基础类别的范围，并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。

Nov, 2021

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021