Nov, 2021

面向上下文的语音识别变换器转录器

TL;DR本文介绍了一种基于上下文的自动语音识别系统:context-aware transformer transducer (CATT) 网络,通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法,取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。