Aug, 2021

多通道 Transformer Transducer 语音识别

TL;DR本文提出了一种新的语音识别模型 MCTT,它具有端到端多通道训练、低计算成本和低延迟等特点,适合于在设备上进行流式解码的场景,并通过限制注意力计算中的未来和过去上下文来提高 MCTT 的计算成本。研究发现,该模型在多通道音频输入的语音识别方面具有更好的性能,速度快且准确率高。