Jul, 2024

ClearCLIP: 分解CLIP表示以进行稠密视觉-语言推理

TL;DR通过重新研究CLIP的架构,我们发现残差连接是降低分割质量的主要噪声源。因此,我们提出了ClearCLIP,这是一种新颖的方法,通过对CLIP的表示进行分解来增强开放词汇的语义分割。ClearCLIP消除了残差连接,实施了自我关注,并且舍弃了前馈网络。在多个基准测试中,ClearCLIP始终生成更清晰、更准确的分割地图,并且在性能上优于现有方法。