Oct, 2023

利用N-Skipgram和位置一元匹配进行无监督语音识别

TL;DR这篇论文介绍了一种新颖的ASR系统ESPUM,通过利用低阶N-skipgrams(最高N=3)和从小批量样本中收集到的位置单字统计数据,克服了无监督语音识别系统训练中的GAN相关不稳定性、语音和文本的不匹配以及显著的内存需求。在TIMIT基准测试中,我们的模型在ASR和音素分割任务中展现了竞争性能。您可以在此https URL上访问我们公开可用的代码。