Dec, 2023

PowerInfer:在消费级 GPU 上快速提供大型语言模型服务

TL;DRPowerInfer 是一个高速的 GPU-CPU 混合推理引擎,利用大型语言模型 (LLM) 推理中固有的高局部性,并通过预加载热激活的神经元到 GPU 以快速访问、在 CPU 上计算冷激活的神经元,从而显著降低 GPU 内存需求和 CPU-GPU 数据传输,并且通过自适应预测器和神经元感知稀疏操作进一步优化神经元激活和计算稀疏性,评估结果显示,在单个 NVIDIA RTX 4090 GPU 上,PowerInfer 在各种 LLM (包括 OPT-175B) 上实现了平均 13.20 令牌 / 秒的生成速率,峰值为 29.08 令牌 / 秒,仅比顶级服务器级 A100 GPU 低 18%,相比于 llama.cpp 最大提升了 11.69 倍,仍保持着模型精度。