Jun, 2024
GigaSpeech 2:用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for
Low-Resource Languages with Automated Crawling, Transcription and Refinement
TL;DR这篇论文介绍了GigaSpeech 2,一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库,它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程,以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性,并且相比于Whisper large-v3模型,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时,与商业服务相比,基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。