Jan, 2021
MAAS: 多模态分配用于活跃说话人检测
MAAS: Multi-modal Assignation for Active Speaker Detection
Juan León-Alcázar, Fabian Caba Heilbron, Ali Thabet, Bernard Ghanem
TL;DR本文提出了将图形数据结构应用于音频和视觉信号融合的新方法,将多模式的音视频特征分配给先前检测到的语音事件,实现了 88.8%的 AV-ActiveSpeaker 数据集性能最优。