Jun, 2024

MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

TL;DR提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT,通过解决预训练和推理不匹配问题,以及利用模型能力更有效地使用多聚类遮蔽预测损失,相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能,并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务(如 ASR)性能的重要信息。