May, 2021

英语会话语音识别的极限探讨

TL;DR本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示,以及采用概率比率方法补偿解码模型,成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%,并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率,并在 Switchboard-300 上实现了新的最佳结果,同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。