Nov, 2021

民间演讲:商业应用的大规模多元化英文语音识别数据集

TL;DR本文介绍一个基于互联网搜集的,供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集,其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率,并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。