May, 2023

针对低资源语言的文本转语音自动 MOS 预测的资源有效调整策略

TL;DR通过对 BVCC 和 SOMOS 数据集进行 wav2vec 2.0 预训练和微调,实现了针对 LRL West Frisian 的零样本 MOS 预测。研究表明,在 30% 的数据使用量之后,使用更多的数据并没有显著性的提高性能;同时,对单个听众的数据进行微调有望提高系统级的性能和稳定性。这些发现有助于开发 LRL 语音合成系统的零样本 MOS 预测和初期评估。