AAAIFeb, 2023
一种基于向量量化的方法用于实际自然语言转音频合成
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky
TL;DR使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。