CVPRApr, 2024

使用合成标题进行超球学习的开放世界检测

TL;DR通过将视觉语言模型 (VLMs) 的知识传递进行启发式操作,从而丰富开放词汇的图像描述。同时,采用新的超几何视觉语言学习方法对合成字幕产生的噪音进行缓解,实现了视觉与字幕嵌入之间的层次关系。在各种开放世界检测基准测试 (COCO、LVIS、Object Detection in the Wild、RefCOCO) 上进行了广泛实验,结果表明我们的模型在使用相同的主干网络时,始终优于现有的 GLIP、GLIPv2 和 Grounding DINO 等最先进方法。