Apr, 2021

视觉表征学习的多模态对比训练

TL;DR通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。