Jun, 2024

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

TL;DR本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。