ICMLJun, 2024

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

TL;DR基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。