BriefGPT.xyz
Ask
alpha
关键词
sparq attention
搜索结果 - 1
SparQ 注意力:高带宽效率的 LLM 推理
通过选择性提取缓存历史记录,使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量,减少注意力块中的内存带宽需求,同时无需修改预训练设置或进行额外的微调,通过在多个下游任务上评估 Llama 2 和 Pythia 模型,
→
PDF
7 months ago
Prev
Next