Oct, 2022

基于自监督预训练声学模型的多语言零资源语音识别

TL;DR本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。