BriefGPT.xyz
Ask
alpha
关键词
token generation rate
搜索结果 - 1
PowerInfer:在消费级 GPU 上快速提供大型语言模型服务
PowerInfer 是一个高速的 GPU-CPU 混合推理引擎,利用大型语言模型 (LLM) 推理中固有的高局部性,并通过预加载热激活的神经元到 GPU 以快速访问、在 CPU 上计算冷激活的神经元,从而显著降低 GPU 内存需求和 CP
→
PDF
7 months ago
Prev
Next