Aug, 2023

KinSPEAK: 通过半监督学习方法改进基尼亚万达语的语音识别

TL;DR通过自监督预训练、课程表安排进行微调以及利用大规模未标记语音数据的半监督学习,我们展示出在金雅琳达语(Kinyarwanda)的语音识别性能方面的显著提升。我们的方法仅关注使用公共领域数据,在公共网站上收集了一个新的高质量语音数据集,然后用于训练一个干净的基线模型,该模型再用于对来自多样且噪声较大的公共数据集中的示例进行排名,从而定义了一个简单的课程表训练计划。最后,我们采用四代连续的半监督学习方法对大规模未标记数据进行标记和学习。根据我们所知,我们的最终模型在新数据集上的字错率(WER)为 3.2%,在 Mozilla Common Voice 基准上的 WER 为 15.9%,这是目前最先进的。我们的实验还表明,对于金雅琳达语的语音识别性能而言,采用音节而不是字符的分词方法结果更好。