Dec, 2019

面向大规模分类和弱标注音频事件同步的音频视觉转换器架构

TL;DR本文报道了一种基于 transformer 神经网络的多模式音视频分类方法,具有较高的准确度,同时还证明了在某些情况下,视觉信息对这个任务是非常有用的。