BriefGPT.xyz
Ask
alpha
关键词
weight-only quantization
搜索结果 - 2
重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值
大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为 LLMs 提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是 sub-4 bit 量化仍然
→
PDF
9 months ago
通过有符号梯度下降优化权重四舍五入方法对 LLM 的量化
我们提出了一种用于优化权重舍入任务的简洁高效方法,名为 SignRound,在 400 个步骤内实现了出色的结果,超过了四舍五入的基线方法,并与最近的方法有着令人印象深刻的竞争力,而不会引入额外的推断开销。
PDF
10 months ago
Prev
Next