Oct, 2023

自我监督解开说话人确认中的声音和内容

TL;DR该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性,其表现为等价错误率和最小 DCF 分别降低了 9.56%和 8.24%,而不需要额外的模型训练或数据,因此可以在实际应用中容易使用。