Jan, 2021

MAAS: 多模态分配用于活跃说话人检测

TL;DR本文提出了将图形数据结构应用于音频和视觉信号融合的新方法,将多模式的音视频特征分配给先前检测到的语音事件,实现了 88.8%的 AV-ActiveSpeaker 数据集性能最优。