DetCLIPv3: 面向多功能的生成式开放分类识别对象检测
本文介绍了一种名为 DetCLIPv2 的训练框架,该框架采用大规模图像 - 文本对以实现开放词汇目标检测。DetCLIPv2 直接从海量图像 - 文本对中学习了细粒度的单词 - 区域对齐,并通过融合来自检测、定位和图像 - 文本对数据的混合监督进行训练。DetCLIPv2 采用交替方案和低分辨率输入有效地利用了图像 - 文本对数据,取得了超过之前工作的表现。
Apr, 2023
DetCLIP 是一种基于视觉概念预训练的方法,通过设计概念词典进行知识丰富,采用平行概念制定提高学习效率,以及利用在线资源和检测数据集构建概念词典,进而提高零样本检测性能。
Sep, 2022
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。
Apr, 2023
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
本文研究了在航拍图像中的物体检测问题,提出了一种使用 CLIP 激活的学生 - 教师模型的开放词汇物体检测框架,通过同时生成高质量的候选区域和伪标签来提高新物体的检测性能。
Nov, 2023
提出了一个新的物体检测数据集 V3Det,包含着丰富的边界框和类别层次结构,可以用于 vast 和 open vocabulary 的物体检测任务。
Apr, 2023
通过使用大规模视觉和语言模型(VLM)作为模型骨干,以及基于 Transformer 的校准器,我们提出了 TaskCLIP,一个两阶段的设计用于任务导向的目标检测,实验结果表明我们的方法优于当前最先进的 TOIST 模型,并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。
Mar, 2024
本文提出了一种名为 CapDet 的新方法,通过将开放世界检测和密集字幕任务统一到一个框架中,引入额外的密集字幕头生成区域定位的字幕,以预测给定类别列表下的结果或直接生成预测边界框的类别,并证明该方法通过加入字幕任务,提高了检测性能的概括能力,并在密集字幕任务上取得了类似 VG V1.2 上 15.44% 和 VG-COCO 数据集上 13.98% 的 MAP 等方面的最先进性能。
Mar, 2023
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为 GenerateU 的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了 GenerateU 的强大的零样本检测性能。
Mar, 2024
本文提出了一种新的预训练框架 DiffCLIP,其结合稳定扩散和 ControlNet,以减小视觉分支中的域间差异,并引入了一种样式提示生成模块,用于少样本任务,在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验,表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成,DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2%的零样本分类精度,这是最先进的技术水平,并且在 ModelNet10 上实现了 80.6%的零样本分类精度,这与最先进的技术水平相当。
May, 2023