Mar, 2020

多模态多通道目标语音分离

TL;DR通过利用目标说话者的空间位置、声音特征和唇部运动,本研究提出了一种通用的多模态框架来实现目标语音分离,并探讨了多模态联合建模的融合方法。通过实验验证,该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法,同时可支持实时处理。