Jul, 2024

利用口音特定码本改进自监督预训练

TL;DR通过引入可训练的一组针对口音的代码本到自我监督架构中,我们提出了一种针对自我监督学习的口音感知自适应技术。这些可学习的代码本使模型能够在预训练过程中捕获口音特定信息,并在ASR微调期间进一步优化,从而在Mozilla Common Voice数据集上胜过其他所有的口音适应方法,对于见过和没见过的英语口音都有最多9%的相对词错误率减少。