Mar, 2024

QuaRot:无异常值的旋转 LLMs 中的 4 位推断

TL;DR利用 QuaRot 的旋转新量化方案,对 LLMs 进行端到端的量化,包括所有权重、激活以及 KV 缓存,并且通过旋转隐藏状态和前馈组件的激活来实现计算的不变性,从而能够以 4 位执行所有矩阵乘法,保留 99% 的零 - shot 性能。