CVPRMar, 2023

BERT 是否盲目?探索视觉语言预训练对视觉语言理解的影响

TL;DR本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能,提出了一系列用于探测文本编码模型视觉推理能力的任务,并说明了采用多模态预训练方法可以提高文本编码器的性能。