May, 2018

TED-LIUM 3: 基于增加数据和语料库重新分配的说话人自适应实验

TL;DR本文介绍TED-LIUM发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比TED-LIUM 2多出一倍以上的语料。研究表明,相比2012年和2014年发布的数据集,通过提高训练数据量,对于端到端的ASR系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组TED-LIUM release 3 corpus数据分配计划,并且将其免费提供给研究社区。