Oct, 2021

WavLM:用于完整语音处理的大规模自监督预训练

TL;DR本篇论文提出了一种新的预训练模型 WavLM,通过联合学习掩蔽语音预测和去噪,利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序,使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力,同时也提高了对非 ASR 语音任务的潜力,其在 SUPERB 基准测试上取得了最先进的性能,并为各种语音处理任务带来了显着的改进。