Jan, 2024
UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding
Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang...
TL;DR该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义分割和全景分割任务,具有最先进的性能。