Dec, 2023

SparQ 注意力:高带宽效率的 LLM 推理

TL;DR通过选择性提取缓存历史记录,使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量,减少注意力块中的内存带宽需求,同时无需修改预训练设置或进行额外的微调,通过在多个下游任务上评估 Llama 2 和 Pythia 模型,展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。