Jun, 2024

语音增强的语言建模用于文本到语音合成

TL;DR我们提出了一种声学增强的语言建模方法,通过使用语音单元预测中的错误积累来改善 TTS 模型的性能,通过自我监督表示来作为自回归语言模型的训练目标,并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器,以减少非自回归训练中的错误传播,客观和主观评估验证了我们提出方法的有效性。