BriefGPT.xyz
Ask
alpha
关键词
high-throughput generation engine
搜索结果 - 1
使用单个 GPU 进行大规模语言模型的高吞吐量生成推断
本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理,通过提出一种高吞吐量生成引擎 FlexGen,结合线性规划优化器并压缩权重和注意力缓存,成功实现在仅一个 16GB GPU 上运行 OPT-175B,并取得了较高的推理吞
→
PDF
a year ago
Prev
Next