Dec, 2023
稳定蒸馏:针对低资源自动语音识别的连续预训练正则化
Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition
TL;DR通过自监督预训练(SSL)持续适应现有的SSL模型至目标领域已被证明对于资源稀缺的自动语音识别(ASR)非常有效。本文提出了一种简单而新颖的方法,称为稳定蒸馏,用于基于SSL的持续预训练,促进目标领域ASR性能的提升,其中有限的有标签和无标签数据。稳定蒸馏将自蒸馏作为持续预训练的正则化方式,减轻持续预训练在源领域与目标领域不同时所面临的过拟合问题。具体而言,首先,在目标领域ASR数据集上对初始SSL预训练模型执行普通的持续预训练,并将其称为教师。接下来,将相同的初始预训练模型作为学生,执行持续预训练,同时强制其隐藏表示与教师的表示接近(通过MSE损失)。然后,使用该学生在目标数据集上进行下游ASR微调。在实践中,当在不同的实验设置中评估时,稳定蒸馏胜过了我们的所有基线方法,WER提高0.8-7个百分点。