Aug, 2017

微软 2017 年会话式语音识别系统

TL;DR本文介绍了微软 2017 年的对话语音识别系统,采用了基于神经网络的声学建模和语言建模的最新进展,加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构,采用两阶段方法进行系统合并,并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示,词错误率为 5.1%。