Mar, 2022

基于稳健解缠变分语音表示学习的零样本语音转换

TL;DR本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。