Oct, 2024

低资源边缘设备高效服务70B规模大模型的TPI-LLM

TL;DR本研究针对边缘设备在执行大规模模型推理时面临的计算能力、内存和带宽限制问题,提出了一种名为TPI-LLM的高效张量并行推理系统。该系统优化了内存调度和通信管理,使得70B规模的模型在内存受限的设备上顺畅运行,显著降低了推理延迟和内存占用。