Aug, 2020

跨模态判别式网络的音视频说话人识别

TL;DR使用跨模态网络 VFNet(Voice-Face Disciminative Network)来建立人类语音和面部之间的关系,辅助音视觉说话人识别,相较于 2019 年 NIST SRE 中评估集的基准音视频融合,VFNet 实现了 16.54% 相对的准确率降低。