Nov, 2018

基于Wave-U-Net的语音增强改进

TL;DR研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标,相比于其原始的音乐中唱声分离系统而言,基于少量隐藏层的结构更适合语音增强,该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号,并可以作为语音识别系统的预处理步骤。