Dec, 2023

一个实验研究:评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

TL;DR我们提出了一种新的适用于文本到语音(TTS)模型的模型架构,将预训练的自监督学习(SSL)语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合,通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明,该模型表现明显不佳,我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关,我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。