ECCVDec, 2021

从 CLIP 中提取无标签稠密特征

TL;DR本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测,特别是语义分割方面的潜力,并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练,MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。