Feb, 2020

未知数量多方讲话者的声音分离

TL;DR我们提出了一种使用门控神经网络在多个处理步骤中训练以将不同数量的混合说话人分离的新方法,该方法在保持每个输出通道中的说话人不变的同时。我们为每个可能的说话人数量训练了不同的模型,并使用具有最多说话人数的模型来选择给定样本中的实际说话人数。该方法在音频分离方面远远超过当前的技术水平,特别是在超过两个说话人的情况下。