Dec, 2023

自监督自适应多语言语音模型的预训练用于语言和方言识别

TL;DR预训练的基于 Transformer 的语音模型在下游任务(如自动语音识别和口语语言识别)上表现出了令人瞩目的性能,但领域不匹配的问题仍然是一个挑战。为了解决这个问题,我们提出了自监督自适应预训练(SAPT)来适应下游任务的目标领域和语言。我们将 SAPT 应用于 XLSR-128 模型,并研究了该方法在 SLID 任务中的有效性。实验证明,SAPT 在 FLEURS 基准测试中提高了 XLSR 的性能,尤其是对于少数语言,增益高达 40.1%。我们还在少样本学习设置中对四个不同数据集应用了 SAPT,结果显示我们的方法提高了 XLSR 的样本效率。我们的实验证据强有力地证明,通过自监督实现持续自适应可以提升多语言语音模型的下游性能。