Jun, 2022

通过跨模态 CutMix 进行非成对视觉 - 语言预训练的 VLMixer

TL;DR本文提出一种名为跨模态 CutMix(CMC)的数据增强方法,用于隐式的跨模态对齐学习,在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时,该论文还提出了一种新的无对齐图像文本预训练方法,名为 VLMixer,通过将 CMC 与对比学习相结合,可以更好地对齐不同视图中的实例。实验结果表明,VLMixer 可以超过以前的无对齐 VLP 方法。