Apr, 2022

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

TL;DR本篇论文介绍了如何利用未配对的语音和文本数据,通过生成相应的缺失部分进行模型训练,并提出了一种称为 CJT++ 的补充联合训练方法,包括伪标签的标签掩蔽和合成音频的梯度限制,以应对与真实数据的偏差。实验结果表明,相比于仅使用语音进行训练,所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升,CJT++ 重新训练进一步增强了性能,并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。