May, 2022

使用预训练模型的自适应多语言语音识别

TL;DR使用预训练的wav2vec 2.0和MBART50模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高44%。同时我们还探索了如何通过微调结构以获得最佳模型。