Jul, 2017

基于深度吸引子网络的说话人无关语音分离

TL;DR提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。