CVPRApr, 2024

基于检索增强的开放词汇物体检测

TL;DR使用提取与负词汇的语义相似度和从大型语言模型中取得的概念进行视觉特征增益,通过 Retrieval-Augmented Losses and visual Features (RALF) 方法,成功改进了基于 Vision-Language Models (VLMs) 的开放性词汇目标检测技术,取得了在 COCO 和 LVIS 基准数据集上的显著改进。