CVPRJan, 2022

Omnivore: 许多视觉模式的单个模型

TL;DR该研究提出了一种基于 Transformer 的 'Omnivore' 模型,使用相同的模型参数在图像、视频、单视角 3D 数据上进行多模态分类,达到与性能同等或更好的效果,并自然地实现了跨模态识别。