Apr, 2024

CLIP 是否是细粒度开放世界感知的主要障碍?

TL;DR现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究,发现了这些限制的根本原因,并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明,简单的 CLIP 潜空间重新投影有助于分离细粒度概念,为开发能够处理细节的骨干网络铺平了道路。