BriefGPT.xyz
Ask
alpha
关键词
memory bandwidth requirements
搜索结果 - 2
SparQ 注意力:高带宽效率的 LLM 推理
通过选择性提取缓存历史记录,使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量,减少注意力块中的内存带宽需求,同时无需修改预训练设置或进行额外的微调,通过在多个下游任务上评估 Llama 2 和 Pythia 模型,
→
PDF
7 months ago
快速 Transformer 解码:仅需要一个写头
本文提出了一种多查询关注机制,使用这种机制可以降低增量解码的内存需求,并通过实验验证了这种关注机制可以使解码速度更快,同时只会导致较小的质量损失。
PDF
5 years ago
Prev
Next