Jan, 2020

音频视觉 SlowFast 网络用于视频识别

TL;DR该研究提出了 Audiovisual SlowFast Networks,一种用于集成视听感知的架构,并通过多层次融合视听特征以及采用 DropPathway regularization 技术对音频路径进行正则化来提高训练效果,并通过层次感知来学习联合视听特征,该方法在六个视频动作分类和检测数据集上取得了最先进的结果。