Sep, 2017

多模态深度卷积神经网络实现音视频语音增强

TL;DR提出了一种音视频深度卷积神经网络(AVDCNN)语音增强模型,该模型在音频处理方面结合了视觉信息,并采用多任务学习框架进行重建音频和视觉信号。实验表明,该模型在语音增强方面表现显著优异,证明了整合视觉信息的有效性,并且优于现有的音频 - 视觉增强模型。