Apr, 2022

SOMOS:三星开放式 MOS 数据集用于神经文本转语音合成的评估

TL;DR该论文介绍了一个大型的神经文本转语音(TTS)数据集 SOMOS,该数据集可以用来训练自动 MOS 预测系统,以评估现代合成器。该数据集由 20k 个来自 200 种 TTS 系统的合成语音组成,提供平衡和充足的领域和长度覆盖率,并在三个英文 Amazon Mechanical Turk 地点上收集 MOS 自然度评估,同时分享了可靠的众包注释实践。研究者提供了 SOTA MOS 预测模型在 SOMOS 数据集上的基线结果,并显示了这些模型在评估 TTS 语音时面临的限制。