Jun, 2022

OmniMAE:图像和视频单模型遮蔽预训练

TL;DR使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。