BriefGPT.xyz
Ask
alpha
关键词
per-ic quantization
搜索结果 - 1
重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值
大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为 LLMs 提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是 sub-4 bit 量化仍然
→
PDF
9 months ago
Prev
Next