Oct, 2020

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

TL;DR本研究提出了 FragmentVC 的方法,通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构,通过目标说话者话语的频谱特征获取目标说话者的细节音频片段,并使用 Transformer 关注机制将其融合到所需的话语中,无需考虑内容和说话者信息的区分,仅基于重构损失进行训练,结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。