Sep, 2023

折叠注意力:用于设备上基于变压器的流式语音识别的内存和功耗优化

TL;DR通过使用 folding attention 技术,针对线性层进行优化,从而显著减小模型大小并改善存储和功耗效率,同时不损失模型准确性或计算开销。