Mar, 2023

使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

TL;DR本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理,通过提出一种高吞吐量生成引擎 FlexGen,结合线性规划优化器并压缩权重和注意力缓存,成功实现在仅一个 16GB GPU 上运行 OPT-175B,并取得了较高的推理吞吐量。