F-VLM：基于冻结视觉和语言模型的开放词汇物体检测

Sep, 2022

F-VLM：基于冻结视觉和语言模型的开放词汇物体检测

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

Weicheng Kuo, Yin Cui, Xiuye Gu, AJ Piergiovanni, Anelia Angelova

TL;DR本文提出了F-VLM，一种基于Frozen Vision and Language Models的简单开放式识别目标检测方法，通过消除知识蒸馏和定制化预训练，简化了现有的多阶段训练管道，实验结果表明 F-VLM 实现了优异的可扩展性，对于LVIS open-vocabulary detection benchmark实现了+6.5 mask AP的改进，并在COCO开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。

Abstract

We present f-vlm, a simple open-vocabulary object detection method built upon frozen vision and language models. →

发现论文，激发创造

使用视觉Transformer进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像-文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在LVIS等新类别上实现了32.0％的mAP和21.7％的掩膜mAP等卓越性能。

Nov, 2022

区域感知预训练与视觉Transformer实现开放式目标检测

提出了一种区域感知的开放词汇视觉Transformer（RO-ViT）预训练方法，其中使用区域级别的位置嵌入来代替整个图像位置嵌入，取得了在LVIS和COCO开放词汇检测基准测试的最佳效果。

May, 2023

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前OVOD方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

面向检测的图像-文本预训练的开放词汇测量

基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像-文本对中学习，我们的方法能够利用对比损失学习到新出现的对象-语义线索，在LVIS和COCO基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

DST-Det: 开放词汇目标检测的简单动态自训练

使用开放词汇的目标检测方法，通过利用预训练的视觉语言模型的零样本分类能力，直接对所有可能的新类别的建议进行分类，而不需要额外的注释或数据集。

Oct, 2023

语言条件的检测变压器

我们提出了一个新的开放词汇检测框架 DECOLA，该框架使用语言条件下的物体检测器和伪标签来实现零样本性能。

Nov, 2023

LLMs遇见VLMs：用细粒度描述符提升开放词汇物体检测

DVDet是一个描述符增强的开放词汇检测器，引入条件上下文提示和分层文本描述符，实现了精确的区域-文本对齐以及一般的开放词汇检测训练。

Feb, 2024

用于开放式物体检测的生成式区域语言预训练

生成式开放式物体检测是一种更通用、实用的问题，本论文提出了一个名为GenerateU的简单框架，将物体检测作为一个生成问题，可以以自由形式检测密集物体并生成它们的名称，通过广泛的实验验证了GenerateU的强大的零样本检测性能。

Mar, 2024

OVLW-DETR: 开放词汇轻量级检测变换器

提出了OVLW-DETR，一种部署友好型的开放词汇检测器，它具有出色的性能和低延迟，通过从视觉-语言模型（VLM）提取词类名嵌入来对齐其检测器，无需额外的融合模块，OVLW-DETR具有灵活性、部署友好性，其在标准零距离LVIS基准测试上优于现有的实时开放词汇检测器。

Jul, 2024