基于英特尔 GPU 的高效 LLM 推理解决方案
为了在移动设备上高效部署大型语言模型,我们提出了四种优化技术:基于符号表达式的动态模型推断,操作符优化和执行优先级设置,FP4 量化方法以减少反量化开销,以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求,并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比,我们的引擎在填充速度上实现了超过 10 倍的加速,并在解码速度上实现了 2~3 倍的加速。
Mar, 2024
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理,展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性,并显示了在 CPU 上的极高推理效率。
Nov, 2023
该研究论文提出了一种基于 FPGA 的 FlightLLM 方法,通过利用 FPGA 特定资源和创新解决方案,实现了大规模语言模型(LLMs)的高效推理,包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中,该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益,同时在吞吐量方面也超过了 NVIDIA A100 GPU。
Jan, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎,通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术,相较于 Hugging Face 实现,在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速,在主流 LLMs 上平均实现了 1.37 倍的速度提升。
Nov, 2023
通过引入关注点卸载的概念,将昂贵的计算优化加速器与便宜的内存优化设备相结合,以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统,实验证明,相较于同质解决方案,Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。
May, 2024
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
Oct, 2023
本文探讨了如何优化在关系查询中调用大型语言模型的 LLM 推断,包括重排行以最大化 LLM 推断引擎内的键值(KV)缓存重用,重排列列以进一步增加缓存重用,并去重复冗余的推断请求。我们在 Apache Spark 中实现了这些优化,在真实数据集上的多样化 LLM 查询基准测试中,最终端到端延迟提高了 4.4 倍。据我们所知,这是第一个明确解决在 SQL 查询中优化 LLM 调用问题的研究。
Mar, 2024
在这篇研究论文中,我们提出了一个分散系统,利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等,我们的性能分析表明,50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。
Sep, 2023
通过部署批处理技术和资源有限的边缘设备上的模型量化,我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题,旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量,同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题,我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法(DFTSP)。模拟结果表明,DFTSP 在各种用户设置和量化技术中超越了其他批处理基准,并且与蛮力搜索方法相比,它的时间复杂度降低了 45% 以上。
May, 2024