May, 2020

迭代式拟标记在语音识别中的应用

TL;DR本文研究了伪标记技术在半监督自动语音识别中的应用,提出了一种名为Iterative Pseudo-Labeling(IPL)的算法,通过迭代伪标记技术并利用无标注数据,可以在标准和低资源环境下实现最佳单词错误率,此外,研究表明对不同文本语料库进行训练的语言模型对于提高ASR的效果非常有效,最后我们公开了一个新的大规模行业内文本语料库以促进低资源半监督ASR的研究。