Nov, 2022
使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测
Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using Prosodic and Linguistic Features
Alexandra Vioni, Georgia Maniati, Nikolaos Ellinas, June Sig Sung, Inchul Hwang...
TL;DR该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响,发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。