BriefGPT.xyz
Ask
alpha
关键词
leanattention
搜索结果 - 1
精简注意力:面向 Transformer 解码阶段的硬件感知可扩展注意力机制
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
PDF
2 months ago
Prev
Next