ICMLMar, 2022

A$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练

TL;DR该研究提出了一种名为 A³T 的框架,通过将文本输入与声学 - 文本对齐结合,训练出预训练模型来生成高质量的重构语谱图,以实现有声编辑和无外部说话人验证模型的多说话人语音合成。