Sep, 2017
全卷积神经网络进行端到端的语音波形增强,以优化直接评估指标
End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks
Szu-Wei Fu, Tao-Wei Wang, Yu Tsao, Xugang Lu, Hisashi Kawai
TL;DR本研究提出一种基于完全卷积神经网络 (FCN) 的语音增强框架,通过对话语的优化来实现时域相关性信息的全面考虑,以降低模型优化和评价指标之间的差距。该框架进一步将 STOI 度量引入模型优化中,因此人类主体和自动语音识别系统对增强的语音的可懂度得到显著提高,而这一指标优于传统的 MMSE 优化方案。