赫尔墨斯：面向边缘设备的大型模型内存高效流水线推理

Sep, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效流水线推理

Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices

Xueyuan Han, Zinuo Cai, Yichu Zhang, Chongxin Fan, Junhan Liu...

TL;DR本研究解决了边缘设备上大型模型推理的内存挑战，提出了PIPELOAD这一新颖的内存高效流水线执行机制。通过动态内存管理和并行模型加载，Hermes框架在推理速度上提升至4.24倍，同时内存消耗降低86.7%。

Abstract

The application of Transformer-based Large Models has achieved numerous success in recent years. However, the exponential growth in the parameters of →

发现论文，激发创造

高效扩展Transformer推理

该研究旨在提高Transformers模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和FLOPS利用率权衡，从而支持Token的大批量处理和长文本生成。

Nov, 2022

H$_2$O: 大语言模型高效生成推理的重要串行预测器

介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法，提高了 Large Language Models 在长序列生成任务中的运行性能。

Jun, 2023

EdgeMoE: 基于MoE的大规模语言模型的快速设备上推断

EdgeMoE是面向边缘设备的第一个在设备上推理引擎，针对稀疏LLMs的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家I/O交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE在内存节省和性能改进方面展现出显著优势。

Aug, 2023

Fiddler: 快速推断混合专家模型的CPU-GPU编排

Fiddler 是一种资源高效的推理引擎，基于 CPU-GPU 协同工作模式用于 Mixture-of-Experts 模型，可以在资源有限的设置中，在单一GPU上运行未压缩的 Mixtral-8x7B 模型，其参数超过 90GB，每秒生成超过3个标记，相较于现有方法获得数量级的提升。

Feb, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过Transformer LLMs中后面的attention子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

大型语言模型高效推理的层压化KV缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准Transformer高26倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的Transformer节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

B'MOJO: 基于永动和衰减记忆的基础模型的混合态空间实现

我们介绍了一种支持传统推理的体系结构家族，它允许内存增长到一个有限但先验未知的界限，同时有效利用有限的资源进行推理。

Jul, 2024

超参数对大型语言模型推理性能的影响：vLLM和HuggingFace管道的评估

本研究解决了大型语言模型推理性能中的超参数优化问题，通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现，超参数对推理吞吐量有显著影响，优化超参数可提升HuggingFace管道的吞吐量，平均分别提高9.16%和13.7%。

Aug, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效管道推理

本研究解决了大型转换器模型在边缘设备上部署时内存消耗过大的问题。通过提出PIPELOAD这一创新的内存高效管道执行机制，论文实现了动态内存管理和并行模型加载，从而极大提升推理速度与降低内存消耗。实验结果表明，赫尔墨斯框架在多种模型中表现优异，有效提升了推理效率，具有显著的实际应用潜力。

Sep, 2024

低资源边缘设备高效服务70B规模大模型的TPI-LLM

本研究针对边缘设备在执行大规模模型推理时面临的计算能力、内存和带宽限制问题，提出了一种名为TPI-LLM的高效张量并行推理系统。该系统优化了内存调度和通信管理，使得70B规模的模型在内存受限的设备上顺畅运行，显著降低了推理延迟和内存占用。

Oct, 2024