May, 2018

TED-LIUM 3: 基于增加数据和语料库重新分配的说话人自适应实验

TL;DR本文介绍 TED-LIUM 发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比 TED-LIUM 2 多出一倍以上的语料。研究表明,相比 2012 年和 2014 年发布的数据集,通过提高训练数据量,对于端到端的 ASR 系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划,并且将其免费提供给研究社区。