Attendre: 基于内存的 Transformer 中的检索式等待以实现长上下文处理
通过 AttentionStore,可以显著降低多轮对话中重复计算的开销,提高首个令牌的时间及预填充处理性能,减少端到端推理成本。
Mar, 2024
大规模语言模型的高吞吐量通过批处理大量请求实现,本研究提出了 PagedAttention 算法和 vLLM 系统,用于减少关键值缓存(KV cache)内存的浪费和冗余复制,改善系统的吞吐量和内存利用率。
Sep, 2023
通过一种名为 RelayAttention 的算法,该论文提出了一种提高大型语言模型(LLM)服务效率的方法,解决了长系统提示导致的吞吐量 / 延迟瓶颈问题,该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态,从而消除了系统提示的冗余。
Feb, 2024
本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。
Jun, 2024
本文介绍了一种名为 LaMemo 的模型,它通过增量地注意右侧的标记,并与旧的内存状态插值,以维护历史上的长期信息,它将双向注意力和段重复与附加计算开销相结合,只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。
Apr, 2022
通过选择性提取缓存历史记录,使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量,减少注意力块中的内存带宽需求,同时无需修改预训练设置或进行额外的微调,通过在多个下游任务上评估 Llama 2 和 Pythia 模型,展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。
Dec, 2023
部署大型语言模型(LLMs)在流式应用中的一个研究论文,介绍了两个主要挑战和一个有效的解决方案 StreamingLLM,用于长文本的流式部署,能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。
Sep, 2023
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021