Mnemosyne: 高效处理千万上下文长度LLM推理请求的并行化策略

Sep, 2024

Mnemosyne: 高效处理千万上下文长度LLM推理请求的并行化策略

Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations

HTML

PDF

Amey Agrawal, Junda Chen, Íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang...

TL;DR本研究针对现有技术无法有效处理千万级上下文推理请求的问题，提出了三项创新方法：自适应分块以降低预填充开销、序列管道并行性以减少首个令牌时间，以及KV缓存并行性以最小化令牌间时间。这些方法结合形成了一种三维并行策略，使得Mnemosyne能够高效地支持上下文长度高达1000万的推理请求。

Abstract

As Large Language Models (LLMs) evolve to handle increasingly longer contexts, serving inference requests for context lengths in the range of millions of tokens presents unique challenges. While existing techniques are effective for training, they fail to address the unique challenges

发现论文，激发创造

参考推理: 大语言模型的无损加速

LLMA是一种基于并行计算的LLM加速器，通过在一次解码步骤中选择参考文本并将其标记复制到解码器，即可实现对LLM的推理加速并提高计算并行性，使其在多种实际生成场景中生成结果与贪婪解码相同，达到2倍以上的加速。

Apr, 2023

压缩后即提示：通过可转移提示提高LLM推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩LLMs通过这种提示学习方法能够匹配或超过原模型的准确性，这为LLMs的推断和扩展提供了新的可能性。

May, 2023

响应长度感知与序列调度：基于LLM增强的LLM推断管道

本文提出了一种高效的大语言模型推理流水线方法，该方法利用大语言模型的潜力来准确感知和预测响应长度，并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理，从而实现了86％的推理吞吐量的提高，同时不影响其效果。该方法是现有工具包（如FlashAttention，Quantization）中的一个宝贵补充。

May, 2023

通过启用中间层解码加速LLM推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

EE-LLM: 基于3D并行的大规模训练与推理的早退出大型语言模型

EE-LLM是一个基于大规模训练和推理的早期退出大型语言模型的框架，通过支持训练和推理的大规模3D并行性，EE-LLM在扩展早期退出LLMs方面迈出了关键的一步，通过实现多种算法创新和性能优化，实现了出色的训练效率和推理加速。

Dec, 2023

Medusa: 多解码头简单的LLM推理加速框架

在这篇论文中，我们介绍了一种名为Medusa的方法，通过增加额外的解码头来预测并行的多个后续标记，从而提高LLM推理的效率，并减少所需的解码步骤。通过两个级别的精细调整程序，Medusa可以满足不同用例的需求。此外，我们还提出了几种扩展方法，包括自我蒸馏和典型接受方案，以提高Medusa的效用。我们的实验证明，Medusa-1可以在不损害生成质量的情况下实现超过2.2倍的加速，而Medusa-2进一步提高了加速度，可达到2.3-3.6倍。

Jan, 2024

Hydragen：具有共享前缀的高吞吐量LLM推理

基于转换器的大型语言模型现已应用于数亿用户。本文提出了Hydragen，一种有硬件感知的精确关注力实现，它对共享前缀和唯一后缀分别计算注意力。该方法可以提高最多32倍的端到端语言模型吞吐量，并能使用非常长的共享上下文。

Feb, 2024

高效的早退大语言模型推理框架

本研究针对早退模型的推理效率问题，提出了一个高效的推理框架。关键创新在于提出了逐迭代的批量推理和KV缓存管理方案，显著提高了推理速度。实验结果表明，与原始的全层vLLM相比，该框架实现了最高1.25倍的速度提升。

Jul, 2024

发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

该研究针对大型语言模型（LLM）在处理长上下文输入时资源消耗和延迟增加的问题，提出了一种新方法，以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌，研究开发了GemFilter算法，实现了比现有技术显著的速度提升（2.4倍）和30%的内存使用减少，具有广泛的适用性和可解释性。

Sep, 2024