May, 2023

S-CLIP: 使用少量特定字幕的半监督视觉-语言预训练

TL;DR提出了一种半监督学习方法S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型CLIP训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强CLIP的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。