Mar, 2022
MVP: 多模态引导的视觉预训练
MVP: Multimodality-guided Visual Pre-training
Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian
TL;DR本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokenizer,并在一系列下游视觉识别任务中取得了显著优越的效果。