Nov, 2022

AltCLIP:扩展 CLIP 语言能力的语言编码器修改

TL;DR本研究将预训练的多模态嵌入模型 CLIP 的文本编码器改为预训练的多语言文本编码器 XLM-R,并通过两阶段的教师学习和对比学习实现两种语言和图像表征之间的对齐,取得了在 ImageNet-CN,Flicker30k-CN,COCO-CN 和 XTD 等任务上的新的最佳表现。