BriefGPT.xyz
大模型
Ask
alpha
关键词
ttft latency
搜索结果 - 1
自适应结构稀疏注意力的长环境 LLM 推理近无损加速
本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。
PDF
17 days ago
Prev
Next