Jun, 2022

基于监督引导的编码本,用于语音预训练中的遮蔽预测

TL;DR本论文提出了两种监督引导的码本生成方法,分别是使用混合ASR系统解码并生成音素级别对齐(命名为PBERT)或者使用从端到端CTC模型中提取的受监督语音特征进行聚类(命名为CTC聚类),以提高自动语音识别性能和预训练效率。实验结果表明,我们的方法在各种SSL和自训练基线中具有显著的优越性,最高WER相对降低了17.0%。我们的预训练模型在非ASR语音任务中也表现出良好的可迁移性。