Sep, 2016

Microsoft 2016 会话式语音识别系统

TL;DR本文介绍 Microsoft 的会话式语音识别系统,其中采用了近期发展的基于神经网络的声学和语言建模技术,结合机器学习集成技术,使用了多种卷积和循环神经网络,通过 i-vector 模型建模和不带晶格的 MMI 训练,在声学建模架构的所有方面都提供了显著的增益率,使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合,提高了 20%. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权,可在 NIST 2000 Switchboard 任务上实现 6.9%的词错误率。 结合系统的误差率为 6.2%,这是对此基准测试中以前报告的结果的改进。