May, 2024

高效经济的大型语言模型推理与注意力卸载

TL;DR通过引入关注点卸载的概念,将昂贵的计算优化加速器与便宜的内存优化设备相结合,以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统,实验证明,相较于同质解决方案,Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。