Feb, 2024

强大的CLIP:用于强大的大规模视觉-语言模型的无监督对抗微调的视觉嵌入

TL;DR我们提出了一种无监督的对抗微调方案来获得强大的CLIP视觉编码器,从而在依赖于CLIP的所有视觉下游任务(VLM,零样本分类)中获得强大的鲁棒性。