Jun, 2024
MSR-86K:一个包含86,300小时语音转换文本的多语种演变语料库,用于语音识别研究
MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of
Transcribed Audio for Speech Recognition Research
TL;DR该论文介绍了MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由YouTube上公开可访问的视频转录数据组成,包括15种语言和总共86300小时的ASR数据。同时,该论文还介绍了如何使用MSR-86K语料库和其他开源语料库来训练一个与Whisper相媲美的强大的多语言语音识别模型。我们将在HuggingFace上公开发布MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。