BriefGPT.xyz
Ask
alpha
关键词
squeezeattention
搜索结果 - 1
SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理
通过确定关注层的重要性,我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算,并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化,SqueezeAttention 在各种大型
→
PDF
3 months ago
Prev
Next