在 CPU 上加速大型语言模型的推断
PowerInfer 是一个高速的 GPU-CPU 混合推理引擎,利用大型语言模型 (LLM) 推理中固有的高局部性,并通过预加载热激活的神经元到 GPU 以快速访问、在 CPU 上计算冷激活的神经元,从而显著降低 GPU 内存需求和 CPU-GPU 数据传输,并且通过自适应预测器和神经元感知稀疏操作进一步优化神经元激活和计算稀疏性,评估结果显示,在单个 NVIDIA RTX 4090 GPU 上,PowerInfer 在各种 LLM (包括 OPT-175B) 上实现了平均 13.20 令牌 / 秒的生成速率,峰值为 29.08 令牌 / 秒,仅比顶级服务器级 A100 GPU 低 18%,相比于 llama.cpp 最大提升了 11.69 倍,仍保持着模型精度。
Dec, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理,展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性,并显示了在 CPU 上的极高推理效率。
Nov, 2023
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的 LLMa 在两代热门 GPU(NVIDIA V100 和 A100)以及两个数据集(Alpaca 和 GSM8K)上的推理性能与推理能源成本。
Oct, 2023
本文探讨了在 CPU 上部署机器学习模型的缩放问题,提出了一种基于分而治之原则的简单而有效的方法来解决这个实际重要的问题,在 OnnxRuntime 框架中实施并用几个用例来评估其有效性,包括用于 OCR 和 NLP 的著名模型。
Jan, 2023
该文章调查了预训练语言模型的压缩和加速方法,重点关注了模型在 NLP 领域推理阶段的表现,并提出为 NLP 的整个生命周期(包括数据准备、模型训练和推理)综合考虑计算、时间和碳排放的高效 NLP 研究。
Feb, 2022
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。
Dec, 2023
本研究提出了一种名为 'NeoCPU' 的综合方法,通过对模板进行优化实现卷积神经网络模型的 CPU 推理,而不是依赖第三方库来实现模型图的单独操作优化,从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明,与当前各种流行 CPU 上的最先进实现相比,NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。
Sep, 2018
大型语言模型的推出带来了自然语言处理领域的重大变革,本文调查了与转换器模型有关的各种 CIM 构架以及它们如何解决现代人工智能计算系统面临的挑战。
Jun, 2024
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
Jan, 2024