Jun, 2024

流式端到端语音识别的解码器架构

TL;DR使用解码器专用架构进行分块流式自动语音识别,通过压缩 CTC 输出和上下文嵌入的语音特征,并将其作为提示逐块顺序提供给解码器,以快速估计输出令牌,同时采用随机长度前缀提示的新型训练方案,使模型能够应对分块处理引起的截断提示,并且在 LibriSpeech test-other 数据集上相对词错误率减少了 8%,速度是基线模型的两倍。