Nov, 2022

中文 CLIP:中文对比视觉 - 语言预训练

TL;DR该研究使用中文数据构建巨大的图像文本配对数据集,并使用其预训练中文 CLIP 模型,该模型能够在零 - shot 学习和微调设置下,在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平,并能够在 ELEVATER 基准测试中实现竞争性能。