Nov, 2022

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

TL;DR该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响,发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。