Sep, 2023

通向通用文本指导的语音转换

TL;DR这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型,处理离散代码序列,生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比,我们的模型以端到端的方式处理语音的各种信息,而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。