Mar, 2017

基于深度神经网络的音频增强的多目标学习和基于掩蔽的后处理

TL;DR该研究提出了一种多目标框架,旨在学习与语音增强 (SE) 的目标任务无关的次要目标以及直接用于构建增强语音信号的原始目标的清洁对数功率谱 (LPS) 特征。在深度神经网络 (DNN) 语音增强中,作者引入了一个辅助结构来学习次要的连续特征和分类信息,并将其集成到原始 DNN 体系结构中,以联合优化所有参数。这种联合估计方案强加了其他限制,这在直接预测 LPS 时不可用,并且潜在地提高了主要目标的学习能力。此外,作为副产物学到的次要信息可以用于其他目的,在本文中是基于 IBM 的后处理。一系列实验表明,联合学习 LPS 和 MFCC 可以提高语音增强的性能,基于 IBM 的后处理进一步提高了重建语音的听音质量。