Feb, 2024

极端编码器输出帧率降低:改善大规模端到端模型的计算延迟

TL;DR通过在编码器中应用多个帧压缩层,我们能够以较低的计算复杂度实现在每 2.56 秒的输入语音中生成一个编码器输出帧,而又不显著影响大规模语音搜索任务的词错误率,并相比于强大但计算代价高昂的基准模型,降低编码器和解码器延迟分别达到了 48% 和 92%。