Jan, 2023

视觉学习者遇到的网络图像-文本对

TL;DR本论文研究了基于网络图像-文本对数据进行自监督学习的方法,对比单模式和多模式方法在视觉转移学习任务上的表现,提出了一个可扩展的MUlti-modal Generator预训练方法,并在多项任务中取得了最先进的转移效果。