Jun, 2024
自适应结构稀疏注意力的长环境 LLM 推理近无损加速
Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li...
TL;DR本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。