May, 2023
将语音技术扩展至 1000 多种语言
Scaling Speech Technology to 1,000+ Languages
Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu...
TL;DR通过基于宗教文本的新数据集和有效利用自监督学习的方法,Massively Multilingual Speech(MMS)项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、以及相同数量的语音合成模型和 4017 种语言的语言识别模型。实验结果表明,我们的多语种语音识别模型在 FLEURS 基准测试的 54 种语言上使 Whisper 的单词错误率减少了一半以上,同时只使用了一小部分标记数据进行训练。