Feb, 2024
极端编码器输出帧率降低:改善大规模端到端模型的计算延迟
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models
Rohit Prabhavalkar, Zhong Meng, Weiran Wang, Adam Stooke, Xingyu Cai...
TL;DR通过在编码器中应用多个帧压缩层,我们能够以较低的计算复杂度实现在每 2.56 秒的输入语音中生成一个编码器输出帧,而又不显著影响大规模语音搜索任务的词错误率,并相比于强大但计算代价高昂的基准模型,降低编码器和解码器延迟分别达到了 48% 和 92%。