May, 2023

将语音技术扩展至 1000 多种语言

TL;DR通过基于宗教文本的新数据集和有效利用自监督学习的方法,Massively Multilingual Speech(MMS)项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、以及相同数量的语音合成模型和 4017 种语言的语言识别模型。实验结果表明,我们的多语种语音识别模型在 FLEURS 基准测试的 54 种语言上使 Whisper 的单词错误率减少了一半以上,同时只使用了一小部分标记数据进行训练。