Mar, 2022
基于检索式多粒度对齐的无监督视觉语言预训练
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment
Mingyang Zhou, Licheng Yu, Amanpreet Singh, Mengjiao Wang, Zhou Yu...
TL;DR本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。