Jun, 2021

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

TL;DR本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech,它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上,提供了基准系统。