MMJan, 2023

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

TL;DR本文提出了一种基于简化说话人提示的目标说话人提取方法,通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入,显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明,我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78,比当前的 SOTA 模型有显著的改进,并提供了目前 WSJ0-2mix 最佳的 TSE 结果。