Apr, 2024

面向非洲次撒哈拉地区的多语言语音表示的非洲中心无监督预训练

TL;DR我们提出了第一个自我监督的多语种语音模型,该模型 exclusively 在非洲语音上进行训练。该模型利用了将近 60,000 小时的无标签语音片段,覆盖了撒哈拉以南非洲的 21 种语言和方言。在 FLEURS-102 数据集的 SSA 子集上,我们基于 HuBERT$_{base}$ (0.09B) 架构的方法显示出与 FLEURS 基准提出的 w2v-bert-51 (0.6B) 预训练模型相当的竞争力,同时使用 7 倍少的数据和 6 倍少的参数来提升 ASR 下游任务的性能。此外,在 LID 下游任务中,我们的方法比 FLEURS 基线的准确性提高了超过 22%。