Jan, 2024

UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解

TL;DR该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义分割和全景分割任务,具有最先进的性能。