CVPRMar, 2022

多模态动作识别中可学习的无关模态丢弃技术 —— 以特定模态注释视频为例

TL;DR通过使用语言模型构建语义音视频标签字典,本文提出了一种新的音视频框架来有效利用任何仅具有视觉注释的数据集中的音频模态,在训练阶段使用 SAVLD 以及预训练的多标签模型来估计音视频模态相关性,并提出了一种可学习的无关模态 dropout 方法;此外,本文还提出了一种新的双流视频 Transformer 来高效地建模视觉模态。 Kinetics400 和 UCF-101 上的结果表明,该框架优于大多数相关的行动识别方法。