Mar, 2016

移动设备上的个性化语音识别

TL;DR本文介绍了一种大词汇量语音识别系统,其特点是准确、延迟低,同时其内存和计算资源占用不大,可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标,进一步使用基于 SVD 的压缩方案进一步减小内存占用,同时利用贝叶斯插值构建单一的语言模型,在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率,而以运行速度优于实时的为媒介获得更优秀的结果。