Jun, 2024

mHuBERT-147:一种紧凑的多语言HuBERT模型

TL;DRmHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型,通过基于faiss的聚类实现了5.2倍更快的标签分配速度,同时应用了新的多语言批量上采样策略,在只有95M个参数的情况下,在经过3次训练迭代后能够胜过在更多数据上训练的更大模型,并且在ML-SUPERB 10分钟/1小时排行榜上分别排名第二和第一,在所有语种识别任务中具有最高的性能得分。在ASR/LID任务中,我们的模型始终超越XLS-R(300M个参数;436K小时)并且与更大的MMS(1B个参数;491K小时)具有很强的竞争力。我们的研究结果表明,mHuBERT-147是一个有前景的多语言语音处理模型,提供了高性能和参数效率之间的前所未有的平衡。