ICMLFeb, 2021

使用带噪文本监督扩展视觉和视觉语言表示学习

TL;DR本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。