Mar, 2024

在 CPU 上加速大型语言模型的推断

TL;DR利用 CPU 加速大型语言模型推理的并行化方法提高吞吐量,通过利用现代 CPU 体系结构的并行处理能力和批处理推理请求,与多个工作程序在同一设备上运行以进行更多的吞吐量改进,可以减少 LLM 的功耗约 48.9%,并提供具备生产环境的吞吐量和延迟。