低资源边缘设备高效服务70B规模大模型的TPI-LLM

Oct, 2024

低资源边缘设备高效服务70B规模大模型的TPI-LLM

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu

TL;DR本研究针对边缘设备在执行大规模模型推理时面临的计算能力、内存和带宽限制问题，提出了一种名为TPI-LLM的高效张量并行推理系统。该系统优化了内存调度和通信管理，使得70B规模的模型在内存受限的设备上顺畅运行，显著降低了推理延迟和内存占用。

Abstract

Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-u

发现论文，激发创造

Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Flash-LLM是一种针对大型生成模型的低成本高效大规模推断框架，通过优化稀疏矩阵乘法，在高性能Tensor Cores上实现了显著的性能提升。

Sep, 2023

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

TP感知的去量化

通过优化的推断部署方案，在分布式部署大型语言模型时减少了模型推断延迟。

Jan, 2024

T-MAC: 通过表查找实现的低位LLM在边缘部署上的CPU复兴

T-MAC是一种基于查找表（LUT）的创新方法，用于在CPU上进行高效的低位LLM（即量化权重LLM）推断，并且在同时消除乘法和减少加法的要求方面支持mpGEMM。

Jun, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Aug, 2024

LUT张量核心：查找表实现高效低比特大语言模型推理加速

本研究解决了低比特大语言模型推理中混合精度矩阵乘法（mpGEMM）需求的问题，提出了一种基于查找表（LUT）的方法。通过优化的软件硬件协同设计—LUT张量核心，不仅改进了表的预计算和存储效率，还显著提升了计算密度和能效，为低比特LMM的执行提供了强有力的支持。

Aug, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效管道推理

本研究解决了大型转换器模型在边缘设备上部署时内存消耗过大的问题。通过提出PIPELOAD这一创新的内存高效管道执行机制，论文实现了动态内存管理和并行模型加载，从而极大提升推理速度与降低内存消耗。实验结果表明，赫尔墨斯框架在多种模型中表现优异，有效提升了推理效率，具有显著的实际应用潜力。

Sep, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效流水线推理

本研究解决了边缘设备上大型模型推理的内存挑战，提出了PIPELOAD这一新颖的内存高效流水线执行机制。通过动态内存管理和并行模型加载，Hermes框架在推理速度上提升至4.24倍，同时内存消耗降低86.7%。

Sep, 2024

Mnemosyne: 高效处理千万上下文长度LLM推理请求的并行化策略

本研究针对现有技术无法有效处理千万级上下文推理请求的问题，提出了三项创新方法：自适应分块以降低预填充开销、序列管道并行性以减少首个令牌时间，以及KV缓存并行性以最小化令牌间时间。这些方法结合形成了一种三维并行策略，使得Mnemosyne能够高效地支持上下文长度高达1000万的推理请求。

Sep, 2024