Jan, 2022

使用统一条件模型的自训练视觉语言 BERTs

TL;DR提出了一种自我训练的方法,用于从未标注的图像数据中训练 VL-BERT 模型,模型采用统一的有条件模型,能够执行零样本条件生成,通过该方法使用仅 300k 个未标注的额外数据,可以获得与训练了 300 万个图像数据的相似模型大小的模型相媲美或甚至更好的性能