Dec, 2017

基于序列到序列模型的最先进语音识别技术

TL;DR本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。