Oct, 2022

软硬目标 RNN-T 蒸馏在大规模 ASR 中的比较

TL;DR本文研究了将知识从一个训练规模较大的教师模型转移到较小的学生模型中的知识蒸馏技术,在 LibriSpeech / LibriLight 公共数据集(60k 小时)和我们公司的内部数据(600k 小时)上对大规模 RNN-T 模型的软目标和硬目标蒸馏进行了比较,发现当教师和学生具有不同的架构(如大教师和小流式学生)时,硬目标更有效。此外,软目标蒸馏在自训练场景(如迭代大型教师训练)中效果更好。通过使用软目标蒸馏进行 Noisy Student 训练,成功在 LibriSpeech 上实现了新的 SoTA 词误率(dev-other 上 8%的相对改进),并允许我们的生产教师不断适应新的数据域。