Mar, 2022

MVP: 多模态引导的视觉预训练

TL;DR本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokenizer,并在一系列下游视觉识别任务中取得了显著优越的效果。