ICMLNov, 2019

端到端自动语音识别:从受监督学习到半监督学习与现代架构

TL;DR本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法,在标准数据集 LibriSpeech 上,通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明,半监督训练可以改善所有架构和损失函数的模型,并在它们之间缩小性能差距,在标准监督学习设置下,获得了端到端声学模型的最新技术水平,并且半监督训练取得了新的绝对技术水平。此外,文章研究了利用不同数量的未标记音频的效果,并提出了几种评估未标记音频特性的方法,证明使用更多的音频进行训练能够减少对外部语言模型的依赖。