稳定蒸馏：针对低资源自动语音识别的连续预训练正则化

Dec, 2023

稳定蒸馏：针对低资源自动语音识别的连续预训练正则化

Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition

Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha

TL;DR通过自监督预训练（SSL）持续适应现有的SSL模型至目标领域已被证明对于资源稀缺的自动语音识别（ASR）非常有效。本文提出了一种简单而新颖的方法，称为稳定蒸馏，用于基于SSL的持续预训练，促进目标领域ASR性能的提升，其中有限的有标签和无标签数据。稳定蒸馏将自蒸馏作为持续预训练的正则化方式，减轻持续预训练在源领域与目标领域不同时所面临的过拟合问题。具体而言，首先，在目标领域ASR数据集上对初始SSL预训练模型执行普通的持续预训练，并将其称为教师。接下来，将相同的初始预训练模型作为学生，执行持续预训练，同时强制其隐藏表示与教师的表示接近（通过MSE损失）。然后，使用该学生在目标数据集上进行下游ASR微调。在实践中，当在不同的实验设置中评估时，稳定蒸馏胜过了我们的所有基线方法，WER提高0.8-7个百分点。

Abstract

Continued self-supervised (SSL) pre-training for adapting existing SSL models to the target domain has shown to be extremely effective for low-resource automatic speech recognition (ASR). This paper proposes