Oct, 2023

利用 N-Skipgram 和位置一元匹配进行无监督语音识别

TL;DR这篇论文介绍了一种新颖的 ASR 系统 ESPUM,通过利用低阶 N-skipgrams(最高 N=3)和从小批量样本中收集到的位置单字统计数据,克服了无监督语音识别系统训练中的 GAN 相关不稳定性、语音和文本的不匹配以及显著的内存需求。在 TIMIT 基准测试中,我们的模型在 ASR 和音素分割任务中展现了竞争性能。您可以在此 https URL 上访问我们公开可用的代码。