May, 2024

边缘智能优化大型语言模型推断 —— 批处理和量化

TL;DR通过部署批处理技术和资源有限的边缘设备上的模型量化,我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题,旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量,同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题,我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法(DFTSP)。模拟结果表明,DFTSP 在各种用户设置和量化技术中超越了其他批处理基准,并且与蛮力搜索方法相比,它的时间复杂度降低了 45% 以上。