pseudo-labeling (PL) has been shown to be effective in semi-supervised
automatic speech recognition (ASR), where a base model is self-trained with
pseudo-labels generated from unlabeled data. While PL can be furt
本文研究了伪标记技术在半监督自动语音识别中的应用,提出了一种名为 Iterative Pseudo-Labeling(IPL)的算法,通过迭代伪标记技术并利用无标注数据,可以在标准和低资源环境下实现最佳单词错误率,此外,研究表明对不同文本语料库进行训练的语言模型对于提高 ASR 的效果非常有效,最后我们公开了一个新的大规模行业内文本语料库以促进低资源半监督 ASR 的研究。