Jun, 2024

MoA: 自动大规模语言模型压缩的稀疏注意力混合

TL;DR稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求,我们提出了混合注意力(MoA),它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置,通过优化稀疏注意力压缩方案,MoA 在保持平均注意力范围不变的情况下,将有效上下文长度提高 3.9 倍,并在多个评估指标上取得 1.5-7.1 倍的准确性提升,在 GPU 内存减少 1.2-1.4 倍的同时,提升解码吞吐量 5.5-6.7 倍。