BriefGPT.xyz
Ask
alpha
关键词
attention score calculation
搜索结果 - 1
折叠注意力:用于设备上基于变压器的流式语音识别的内存和功耗优化
通过使用 folding attention 技术,针对线性层进行优化,从而显著减小模型大小并改善存储和功耗效率,同时不损失模型准确性或计算开销。
PDF
10 months ago
Prev
Next