Apr, 2021

VATT:用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型

TL;DR我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练,其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率,并且将 VATT 迁移至图像分类任务中,其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP,而不需要监督预训练,表现出模型的泛化能力。