Nov, 2021

PolyViT:基于图像、视频和音频的联合训练视觉 Transformer 模型

TL;DR本文提出了一种名为 PolyViT 的多模态 Transformer 模型,并通过在单模态上协同训练不同任务,提高了每个任务的准确性。通过在多模态和任务上共同训练 PolyViT 模型,可以更加节省参数,并学习可适用多个领域的表示。此外,我们证明了共同训练是简单和实用的,因为我们不需要为每个数据集组合调整超参数,而是可以直接从标准单任务训练中适应。