BriefGPT.xyz
Apr, 2021
视觉表征学习的多模态对比训练
Multimodal Contrastive Training for Visual Representation Learning
HTML
PDF
Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, Yilin Wang...
TL;DR
通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在COCO数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在ImageNet数据集上实现了55.3%的顶级验证精度。
Abstract
We develop an approach to learning
visual representations
that embraces
multimodal data
, driven by a combination of intra- and inter-modal similarity preservation objectives. Unlike existing visual
→