Apr, 2023

CAVL:学习视觉与语言的对比和自适应表征

TL;DR本研究主要探讨了视觉与语言的联合预训练,提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中,我们将其应用于包括 VQA,VCR,NLVR,RPG,TIR 和 ZS-TIR 在内的六项主要任务中,并与基准模型进行比较,结果表明我们的方法具有明显的优势。