Nov, 2023

基于 GPU 加速的 WFST 波束搜索解码器用于基于 CTC 的语音识别

TL;DR通过引入支持当前 CTC 模型的 GPU 加速加权有限状态转录器(WFST)波束搜索解码器,我们提供了一种 GPU 加速的波束搜索解码器,可以提高管道吞吐量,减少延迟,并支持流式推理,同时支持实时组合进行话语特定的单词增强。我们针对离线和在线场景评估了我们的解码器,证明它是 CTC 模型的最快波束搜索解码器。在离线场景中,它的吞吐量比当前最先进的 CPU 解码器高出多达 7 倍,在在线流式场景中,它的延迟几乎比之前更低,而且单词错误率相同或更好。