Aug, 2024
面向开放词汇分割的协作视觉-文本表征优化
Collaborative Vision-Text Representation Optimizing for Open-Vocabulary
Segmentation
TL;DR本研究主要解决了开放词汇分割任务中,视觉-文本模型在训练时存在的能力瓶颈,提出了一种基于内容依赖的迁移方法,通过与输入图像的互动自适应增强文本表征。此外,还引入了表征补偿策略,以保持CLIP的零-shot能力。实验结果表明,该方法在多个开放词汇分割基准上显著超越了现有最优方案。