Jun, 2024

PowerInfer-2:智能手机上快速的大型语言模型推断

TL;DRPowerInfer-2 是一个为智能手机上的大型语言模型(LLM)进行高速推断而设计的框架,通过将传统的矩阵计算分解为细粒度的神经元集群计算,利用智能手机中的异构计算、内存和 I/O 资源,实现了多样的计算策略,减少了 I/O 操作带来的开销。在两部智能手机上的实现和评估表明,相比于现有的框架,PowerInfer-2 实现了高达 29.2 倍的速度提升,并且是第一个在智能手机上具有 11.68 tokens 每秒生成速率的 TurboSparse-Mixtral-47B 模型服务的系统。对于完全适合内存的模型,PowerInfer-2 可以实现大约 40% 的内存使用减少,并且维持与 llama.cpp 和 MLC-LLM 相当的推断速度。