Jun, 2024

GigaSpeech 2:用于低资源语种的演进、大规模、多领域的 ASR 语料库的自动爬取、转写和优化

TL;DR这篇论文介绍了 GigaSpeech 2,一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库,它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程,以及通过修改的 Noisy Student Training 来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性,并且相比于 Whisper large-v3 模型,基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语的测试集上可以将词错误率降低 25% 至 40%。同时,与商业服务相比,基于 GigaSpeech 2 训练的 ASR 模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。