Apr, 2021
视觉表征学习的多模态对比训练
Multimodal Contrastive Training for Visual Representation Learning
Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, Yilin Wang...
TL;DR通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。