BriefGPT.xyz
Feb, 2021
使用带噪文本监督扩展视觉和视觉语言表示学习
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
HTML
PDF
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh...
TL;DR
本文利用包含超过10亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Abstract
Pre-trained representations are becoming crucial for many
nlp
and perception tasks. While
representation learning
in
nlp
has transitioned
→