ICMLFeb, 2021

ViLT:无卷积或区域监督的视觉语言 Transformer

TL;DR本文提出了一种新的 Vision-and-Language Pre-training 模型 ViLT,它是一种单体模型,与文本输入处理方式相同,并通过多模态交互步骤实现视觉输入处理。ViLT 通过简化图像输入处理过程,使得模型训练更加高效,可以有效地提高下游任务的性能表现。