Jun, 2022
通过跨模态CutMix进行非成对视觉-语言预训练的VLMixer
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
TL;DR本文提出一种名为跨模态CutMix(CMC)的数据增强方法,用于隐式的跨模态对齐学习,在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时,该论文还提出了一种新的无对齐图像文本预训练方法,名为VLMixer,通过将CMC与对比学习相结合,可以更好地对齐不同视图中的实例。实验结果表明,VLMixer可以超过以前的无对齐VLP方法。