Jan, 2024

Zoom-shot: 快速高效的无监督零样本迁移CLIP到视觉编码器的多模态损失

TL;DR通过 Zoom-shot 方法,利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射,从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力,实现了下一代 VLMs 的开发。