在 CPU 上高效 LLM 推断
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
我们提出了一种自动代码生成的新方法,用于支持 LLMs(如 LLaMA 或 OPT)上的量化生成推理,并在现成的 CPU 上做了研究,结果表明我们的方法在性能和准确性方面较好。
Jul, 2023
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。
Dec, 2023
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
研究使用 GenZ 工具来探讨大型语言模型的推理性能与各种平台设计参数之间的关系,并提供配置不同工作负载和用例的平台要求,在不同场景下支持 SOTA LLMs 模型的分析,也展示了为支持未来可能超过数万亿参数的 LLMs 所需的硬件能力预测。
Jun, 2024
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层 GPU 内核,相对于 FP16 执行,端到端的吞吐量可提高最多 3.1 倍。
Oct, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
为了在移动设备上高效部署大型语言模型,我们提出了四种优化技术:基于符号表达式的动态模型推断,操作符优化和执行优先级设置,FP4 量化方法以减少反量化开销,以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求,并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比,我们的引擎在填充速度上实现了超过 10 倍的加速,并在解码速度上实现了 2~3 倍的加速。
Mar, 2024