May, 2024

非自回归实时音调转换模型与语音克隆

TL;DR我们开发了一种实时语音转换模型,具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力,从而提高语音质量,增强现有 ASR 系统的识别性能,并适用于实时多用户通信场景。