May, 2024
高效经济的大型语言模型推理与注意力卸载
Efficient and Economic Large Language Model Inference with Attention Offloading
Shaoyuan Chen, Yutong Lin, Mingxing Zhang, Yongwei Wu
TL;DR通过引入关注点卸载的概念,将昂贵的计算优化加速器与便宜的内存优化设备相结合,以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统,实验证明,相较于同质解决方案,Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。