Jun, 2024
流式端到端语音识别的解码器架构
Decoder-only Architecture for Streaming End-to-end Speech Recognition
TL;DR使用解码器专用架构进行分块流式自动语音识别,通过压缩CTC输出和上下文嵌入的语音特征,并将其作为提示逐块顺序提供给解码器,以快速估计输出令牌,同时采用随机长度前缀提示的新型训练方案,使模型能够应对分块处理引起的截断提示,并且在LibriSpeech test-other数据集上相对词错误率减少了8%,速度是基线模型的两倍。