DetCLIPv2: 通过词区对齐实现可伸缩的开放式目标检测预训练

Apr, 2023

DetCLIPv2: 通过词区对齐实现可伸缩的开放式目标检测预训练

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang...

TL;DR本文介绍了一种名为DetCLIPv2的训练框架，该框架采用大规模图像-文本对以实现开放词汇目标检测。DetCLIPv2直接从海量图像-文本对中学习了细粒度的单词-区域对齐，并通过融合来自检测、定位和图像-文本对数据的混合监督进行训练。DetCLIPv2采用交替方案和低分辨率输入有效地利用了图像-文本对数据，取得了超过之前工作的表现。

Abstract

This paper presents detclipv2, an efficient and scalable training framework that incorporates large-scale image-text pairs to achieve open-vocabulary →

发现论文，激发创造

RegionCLIP: 基于区域的语言-图像预训练

RegionCLIP是一种新的方法，扩展了CLIP模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

具有条件匹配的Open-Vocabulary DETR

提出一种基于DETR模型和Transformer模型的开放词汇检测器OV-DETR，该模型能够通过自然语言或示例图像输入，检测任何物体。通过在LVIS和COCO数据集上进行广泛实验，该模型证明了显著的性能提升。

Mar, 2022

使用视觉语言模型学习开放词汇物体检测提示

本文提出一种名为DetPro的新方法，以学习基于预先训练的视觉-语言模型的连续提示表示，用于开放词汇物体检测。与以前的分类为导向的方法不同，DetPro具有两个亮点：1）背景解释方案，包括图像背景中的提议进入提示训练；2）上下文分级方案，用于分离定制提示训练中的图像前景中的建议。通过将DetPro与状态-of-the-art的开放世界对象检测器ViLD组装在一起，并在LVIS以及Pascal VOC，COCO，Objects365数据集上进行实验，实验结果表明，我们的DetPro在所有设置中都优于基线ViLD，例如在LVIS的新颖类上提高了3.4 APbox和3.0 APmask。

Mar, 2022

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上，我们的方法在新颖类别上取得了36.6的AP50表现，绝对值超过了以前的最佳性能。对于LVIS，我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP，总体提高3.4。

Jul, 2022

DetCLIP：用于开放世界检测的词典增强视觉概念并行预训练

DetCLIP是一种基于视觉概念预训练的方法，通过设计概念词典进行知识丰富，采用平行概念制定提高学习效率，以及利用在线资源和检测数据集构建概念词典，进而提高零样本检测性能。

Sep, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像-文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在LVIS等新类别上实现了32.0％的mAP和21.7％的掩膜mAP等卓越性能。

Nov, 2022

CORA：使用区域提示和锚点预匹配来适应开放词汇检测的 CLIP 模型

利用Region prompting和Anchor pre-matching实现CLIP适应开放词汇检测任务，成功应用于目标检测并在评估中超越以前的最佳性能。

Mar, 2023

面向检测的图像-文本预训练的开放词汇测量

基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像-文本对中学习，我们的方法能够利用对比损失学习到新出现的对象-语义线索，在LVIS和COCO基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

DetCLIPv3:面向多功能的生成式开放分类识别对象检测

DetCLIPv3是一种高性能检测器，不仅在开放词汇物体检测方面表现出色，还能为检测到的物体生成分层标签。

Apr, 2024

LaMI-DETR: 通过语言模型指令进行开放词汇检测

该研究论文介绍了Language Model Instruction (LaMI)策略在图像识别中的应用，利用Vision-Language Models和基于GPT和T5的LaMI-DETR检测器，通过构建视觉概念和分析类别之间的视觉相似性，解决了概念表示不足和过度拟合的问题，且在无需外部训练资源的条件下表现出卓越的性能。

Jul, 2024