Aug, 2024

ProxyCLIP: 代理注意力提升CLIP在开放词汇分割中的表现

TL;DR本研究解决了开放词汇语义分割中模型在视觉表示与开放词汇语义标签整合的困难。提出的ProxyCLIP框架通过利用视觉基础模型的空间特征,将其作为代理注意力增强CLIP,从而实现空间精度与语义丰富性的有效结合。研究表明,ProxyCLIP显著提高了多项基准测试的平均均值交并比,从40.3提升至44.4,展现了其在开放词汇分割任务中的卓越效果。