Mar, 2022
基于检索式多粒度对齐的无监督视觉语言预训练
Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment
TL;DR本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像-文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过VQA、NLVR2、Visual Entailment、RefCOCO+等下游任务的评估,取得了在无监督设置下的最佳性能。