May, 2023
针对低资源语言的文本转语音自动 MOS 预测的资源有效调整策略
Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
TL;DR通过对 BVCC 和 SOMOS 数据集进行 wav2vec 2.0 预训练和微调,实现了针对 LRL West Frisian 的零样本 MOS 预测。研究表明,在 30% 的数据使用量之后,使用更多的数据并没有显著性的提高性能;同时,对单个听众的数据进行微调有望提高系统级的性能和稳定性。这些发现有助于开发 LRL 语音合成系统的零样本 MOS 预测和初期评估。