Sep, 2017
多模态深度卷积神经网络实现音视频语音增强
Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks
Jen-Cheng Hou, Syu-Siang Wang, Ying-Hui Lai, Yu Tsao, Hsiu-Wen Chang...
TL;DR提出了一种音视频深度卷积神经网络(AVDCNN)语音增强模型,该模型在音频处理方面结合了视觉信息,并采用多任务学习框架进行重建音频和视觉信号。实验表明,该模型在语音增强方面表现显著优异,证明了整合视觉信息的有效性,并且优于现有的音频 - 视觉增强模型。