Jan, 2024

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

TL;DR提出了一种名为 AVT 的新颖的音视频识别方法,利用视频 Transformer 在时空上的表示来提高动作识别的准确性,并通过音视频瓶颈 Transformer 减少跨模态复杂度,融合自监督目标,而进一步引入一个屏蔽音频片段损失,以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。