- RTGen:为开放词汇物体检测生成区域文本对
通过生成可扩展的开放词汇区域 - 文本对,RTGen 能够提高开放词汇物体检测的性能,其中文本到区域的生成是通过图像修复以及布局引导来实现的,区域到文本的生成则是通过基于多个提示进行区域级别图像字幕并根据 CLIP 相似性选择最佳匹配文本完 - CVPRSHiNe: 开放词汇物体检测的语义层级连结
语义层级联盟(SHiNe)是一种使用类别层次结构的新型分类器,通过在语言模型的帮助下,提高了对于不同细粒度词汇的健壮性,不需要训练且可与任何现有的 OvOD 检测器无缝集成,可用于图像目标检测和分类任务。
- 通过相邻区域注意力对齐进行开放式目标检测
提出了一种邻近区域注意力对齐的方法,通过在一组邻近区域的注意力机制内进行对齐来提升开放词汇推理,进而协助检测器和预训练视觉语言模型之间的对齐,在开放词汇基准测试中展现出优秀的性能。
- CVPRDetCLIPv3: 面向多功能的生成式开放分类识别对象检测
DetCLIPv3 是一种高性能检测器,不仅在开放词汇物体检测方面表现出色,还能为检测到的物体生成分层标签。
- 无需训练的自信度聚合增益对开放词汇物体检测的改进
研究着重探讨开放词汇对象检测 (OVOD) 中的问题,包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性,并提出了一种后处理方案(AggDet),通过两种先进的衡量方法来调整信心分数和恢复误判的对象,并在 OV-COCO 和 OV - CVPR基于检索增强的开放词汇物体检测
使用提取与负词汇的语义相似度和从大型语言模型中取得的概念进行视觉特征增益,通过 Retrieval-Augmented Losses and visual Features (RALF) 方法,成功改进了基于 Vision-Language - CLIP 是否是细粒度开放世界感知的主要障碍?
现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究,发现了这些限制的根本原因,并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明,简单的 CLIP - 分布变化下基于开放词汇的基础对象检测鲁棒性研究
该研究提供了对三种最新的开放词汇基础目标检测模型(OWL-ViT、YOLO World 和 Grounding DINO)的零样本能力的全面鲁棒性比较,通过在包含分布转移的 COCO-O 和 COCO-C 基准上进行实验揭示了模型鲁棒性的挑 - CVPR用于开放式物体检测的生成式区域语言预训练
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为 GenerateU 的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了 GenerateU 的强大的零样本检测性能。
- 利用元提示表示和实例对比优化的开放词汇目标检测
通过使用元提示和实例对比学习方案,我们提出了一种新的框架来解决过拟合、依赖额外数据和复杂训练过程的问题,此框架在检测新类别对象方面显示出优于现有复杂技术训练的方法的良好的泛化能力。
- LLMs 遇见 VLMs:用细粒度描述符提升开放词汇物体检测
DVDet 是一个描述符增强的开放词汇检测器,引入条件上下文提示和分层文本描述符,实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。
- AAAI弱监督开放词汇物体检测
提出了一种弱监督开放式词汇目标检测(WSOVOD)框架,扩展了传统的弱监督目标检测方法,实现了对新概念的检测和仅使用图像级别标注的多样数据集的利用。
- CLIM:用于区域表示的对比性语言 - 图像拼贴
通过大规模的图像 - 文本对,借助 CLIM 方法实现区域与文本表示的对齐,改进开放词汇物体检测方法并加强视觉 - 语言模型的区域表示,提供更强实力的骨干,实验结果表明 CLIM 在 OV-COCO 和 OV-LVIS 基准上极大改进不同的 - 简化的图像级分类改进开放词汇物体检测
利用简单的图像级别分类方法(Simple Image-level Classification)结合上下文感知的检测得分(Context-Aware Detection Scoring)模块,从全局视角利用 CLIP 模型的全局知识来优化当 - AAAIProxyDet:通过类别混合合成代理新类别,用于开放词汇的目标检测
通过利用预训练的视觉和语言模型(如 CLIP)的零样本能力,结合伪区域标注的外部数据源,提出了一种在 CLIP 嵌入空间中通过线性混合虚拟生成接近新颖类的代理新颖类的新颖而简单的技术,该技术能够在整体新颖类分布上改进开放词汇目标检测模型的泛 - 开放词汇目标检测中学习超越名词概念的伪标签器
本文提出了一种简单而有效的方法,用于直接学习任意概念的区域 - 文本对齐,从而在开放词汇目标检测方面取得有竞争力的性能和在任意概念的指称表达理解方面取得显著的改进。
- 细节决定成败:评估针对细节理解的开放词汇物体检测器
我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度,并通过对几种最先进的开放词汇物体检测器的评估,发现大多数现有方法难以准确捕捉和区分物体的细节,并总结了当前方法的局限性和有望克 - CastDet: 以 CLIP 激活的师生学习实现开放词汇空中目标检测
本文研究了在航拍图像中的物体检测问题,提出了一种使用 CLIP 激活的学生 - 教师模型的开放词汇物体检测框架,通过同时生成高质量的候选区域和伪标签来提高新物体的检测性能。
- LP-OVOD:通过线性探测的开放词汇物体检测
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前 n 个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在 COCO 数据集上 - CoDet:开放词汇目标检测的共现导向区域 - 词对齐
利用共现对象发现的方法,CoDet 克服了对预对齐视觉 - 语言空间依赖的限制,通过图像标题中提及共享概念的图像分组,发现并与共享概念对齐共现对象,从而实现了对象级别的视觉 - 语言表示,具有卓越的性能和可扩展性。