Sep, 2019

无排列目标的端到端神经说话人分离

TL;DR本文介绍了一种基于神经网络的说话人分离技术,将说话人分离问题转化为多标签分类问题,并提出了一个无排列的目标函数来直接最小化分离误差,从而能够更好地处理重叠语音,并通过真实录制的多说话者对话进行领域自适应,最终在模拟语音混合数据集上达到了较好的分离结果。