Sep, 2024

IndicVoices-R:解锁一个巨大的多语言多说话人语音语料库,以扩展印度文本到语音技术

TL;DR本研究解决了印度语言缺乏高质量手动字幕数据的问题,通过增强现有的大规模自动语音识别数据集,生成高质量的文本到语音(TTS)训练数据。提出的IndicVoices-R(IV-R)是来自自动语音识别数据集的最大型多语言印度TTS数据集,涵盖22种语言,并引入了IV-R基准,以评估TTS模型在印度语音上的说话人泛化能力。研究表明,使用我们的数据进行微调的模型能更好地实现零-shot说话人泛化,从而推动了印度TTS技术的发展。