Oct, 2022

软硬目标RNN-T蒸馏在大规模ASR中的比较

TL;DR本文研究了将知识从一个训练规模较大的教师模型转移到较小的学生模型中的知识蒸馏技术,在LibriSpeech / LibriLight公共数据集(60k小时)和我们公司的内部数据(600k小时)上对大规模RNN-T模型的软目标和硬目标蒸馏进行了比较,发现当教师和学生具有不同的架构(如大教师和小流式学生)时,硬目标更有效。此外,软目标蒸馏在自训练场景(如迭代大型教师训练)中效果更好。通过使用软目标蒸馏进行Noisy Student训练,成功在LibriSpeech上实现了新的SoTA词误率(dev-other上8%的相对改进),并允许我们的生产教师不断适应新的数据域。