Oct, 2023

条件扩散模型:目标说话者提取

TL;DR我们提出了 DiffSpEx,一种基于基于分数的生成建模的目标说话人提取方法,通过随机微分方程实现。 DiffSpEx 在复杂的短时傅里叶变换领域中部署连续时间的随机扩散过程,从目标说话人源开始并收敛到以源混合为中心的高斯分布。 对于逆时间过程,一个参数化的分数函数会被调整到一个目标说话人嵌入上,以从多个源的混合中提取目标说话人。我们使用 ECAPA-TDNN 目标说话人嵌入,并交替将分数函数调整到 SDE 时间嵌入和目标说话人嵌入上。我们利用 WSJ0-2mix 数据集展示了 DiffSpEx 的潜力,实现了 12.9 dB 的 SI-SDR 和 3.56 的 NISQA 得分。此外,我们还展示了将预训练的 DiffSpEx 模型微调到特定说话人能进一步提高性能,实现了目标说话人提取中的个性化。