发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

Sep, 2024

发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty

TL;DR该研究针对大型语言模型（LLM）在处理长上下文输入时资源消耗和延迟增加的问题，提出了一种新方法，以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌，研究开发了GemFilter算法，实现了比现有技术显著的速度提升（2.4倍）和30%的内存使用减少，具有广泛的适用性和可解释性。

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities in handling Long Context inputs, but this comes at the cost of increased computational resources and latency. Our research introduces a novel

发现论文，激发创造

响应长度感知与序列调度：基于LLM增强的LLM推断管道

本文提出了一种高效的大语言模型推理流水线方法，该方法利用大语言模型的潜力来准确感知和预测响应长度，并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理，从而实现了86％的推理吞吐量的提高，同时不影响其效果。该方法是现有工具包（如FlashAttention，Quantization）中的一个宝贵补充。

May, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

Hydragen：具有共享前缀的高吞吐量LLM推理

基于转换器的大型语言模型现已应用于数亿用户。本文提出了Hydragen，一种有硬件感知的精确关注力实现，它对共享前缀和唯一后缀分别计算注意力。该方法可以提高最多32倍的端到端语言模型吞吐量，并能使用非常长的共享上下文。

Feb, 2024

Quest: 查询感知稀疏性用于高效长上下文LLM推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的KV缓存选择算法来加速自注意力机制，该算法通过仅加载前K个关键KV缓存页面来显著提高自注意力的速度。

Jun, 2024

MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充

通过识别长上下文注意力矩阵中的独特模式（A形、垂直斜线和稀疏块），并利用GPU上的稀疏计算方法，我们提出了MInference（百万令牌推理），以显著减少长上下文大型语言模型的预填充阶段的延迟。

Jul, 2024

超参数对大型语言模型推理性能的影响：vLLM和HuggingFace管道的评估

本研究解决了大型语言模型推理性能中的超参数优化问题，通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现，超参数对推理吞吐量有显著影响，优化超参数可提升HuggingFace管道的吞吐量，平均分别提高9.16%和13.7%。

Aug, 2024

检索注意力：通过向量检索加速长上下文大型语言模型推理

本研究针对Transformer基础的大型语言模型（LLMs）在处理长上下文时面临的高推理延迟和GPU内存消耗问题，提出了RetrievalAttention方法。该方法通过在CPU内存中构建近似最近邻搜索（ANNS）索引，利用注意力的动态稀疏特性，显著降低了推理成本和内存需求，同时保持了模型的准确性。检索注意力在支持128K个标记的情况下仅需16GB的GPU内存，显著提高了推理效率。

Sep, 2024

检索注意力：通过向量检索加速长上下文大语言模型推理

本研究解决了长上下文大语言模型推理中的注意力计算时间复杂度高和GPU内存消耗大的问题。提出了一个名为检索注意力的方法，该方法利用动态稀疏性和近似最近邻搜索优化KV向量检索，显著减少了推理成本并降低了内存占用，成功在保持模型准确性的同时实现了高效推理。

Sep, 2024

Mnemosyne: 高效处理千万上下文长度LLM推理请求的并行化策略

本研究针对现有技术无法有效处理千万级上下文推理请求的问题，提出了三项创新方法：自适应分块以降低预填充开销、序列管道并行性以减少首个令牌时间，以及KV缓存并行性以最小化令牌间时间。这些方法结合形成了一种三维并行策略，使得Mnemosyne能够高效地支持上下文长度高达1000万的推理请求。

Sep, 2024

小小的改进可带来巨大效益：基于部分上下文的高效长上下文训练与推理

本研究解决了训练和服务长上下文大语言模型（LLMs）时的高开销问题。提出的LongGen方法将上下文长度扩展与GPU友好的KV缓存减少架构相结合，显著提高了长上下文的表现和训练效率，展现了在128K长上下文下的训练加速和内存节省的显著成果。

Oct, 2024