Dec, 2023

重新考虑神经语音识别中的熵半环

TL;DR在流媒体环境中,语音识别模型需要在完整音频流可用之前将语音的子序列映射为文本,但由于训练过程中很少有语音和文本之间的对齐信息可用,模型需要以完全自我监督的方式进行学习。本文通过熵半环重新考虑了神经语音识别模型,展示了如何通过对齐熵来通过正则化或蒸馏来监督模型。在实证上,我们观察到对齐蒸馏的添加可以提高已经经过优化的师生蒸馏模型的准确性和延迟,实现了在流媒体场景下 Librispeech 数据集上的最新性能。