May, 2023

多语音预训练中的语言通用语音表示法用于小资源语音识别

TL;DR本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。