Dec, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

TL;DR提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。