Jul, 2022

为主动发言人检测提供的端到端音视频特征融合

TL;DR本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架,利用两个 BiGRU 层来处理音视频输入的时间动态,并在 AVAAcitveSpeaker 数据集上的实验结果表明,该模型具有更好的鲁棒性和更好的推断时间。