Nov, 2022

用更少的双模态监督训练视觉 - 语言模型

TL;DR本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖,通过对高性能视觉 - 语言模型的实验,发现在一些简单任务中完全可以消除双模态监督,但在更复杂的任务中,没有双模态监督将导致随机的性能。然而,利用 5%的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。