Sep, 2023
折叠注意力:用于设备上基于变压器的流式语音识别的内存和功耗优化
Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition
Yang Li, Liangzhen Lai, Yuan Shangguan, Forrest N. Iandola, Ernie Chang...
TL;DR通过使用 folding attention 技术,针对线性层进行优化,从而显著减小模型大小并改善存储和功耗效率,同时不损失模型准确性或计算开销。