May, 2024

使用低秩和低精度分解压缩大型语言模型

TL;DRCALDERA 是一种新的后训练 LLM 压缩算法,通过近似低秩、低精度分解的权重矩阵近似表达模型,研究了压缩比和模型性能的权衡以及在小于 2.5 比特每参数的情况下相比现有的压缩技术的优越性。