Jun, 2024

mHuBERT-147:一种紧凑的多语言 HuBERT 模型

TL;DRmHuBERT-147 是第一个以 90K 小时的干净、开源数据训练的通用多语言 HuBERT 语音表示模型,通过基于 faiss 的聚类实现了 5.2 倍更快的标签分配速度,同时应用了新的多语言批量上采样策略,在只有 95M 个参数的情况下,在经过 3 次训练迭代后能够胜过在更多数据上训练的更大模型,并且在 ML-SUPERB 10 分钟 / 1 小时排行榜上分别排名第二和第一,在所有语种识别任务中具有最高的性能得分。在 ASR/LID 任务中,我们的模型始终超越 XLS-R(300M 个参数;436K 小时)并且与更大的 MMS(1B 个参数;491K 小时)具有很强的竞争力。我们的研究结果表明,mHuBERT-147 是一个有前景的多语言语音处理模型,提供了高性能和参数效率之间的前所未有的平衡。