Nov, 2023

FlashDecoding++: 在 GPU 上更快的大型语言模型推理

TL;DRFlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎,通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术,相较于 Hugging Face 实现,在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速,在主流 LLMs 上平均实现了 1.37 倍的速度提升。