BriefGPT.xyz
Ask
alpha
关键词
gpu memory reduction
搜索结果 - 1
MoA: 自动大规模语言模型压缩的稀疏注意力混合
稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求,我们提出了混合注意力(MoA),它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置,通过优化稀疏注意力压缩方案,MoA 在保持平均注意力范围不变的情况下,将有效上下文
→
PDF
15 days ago
Prev
Next