Jun, 2023

SpQR: 一种稀疏量化表示法,用于近无损 LLM 重量压缩

TL;DR通过 Sparse-Quantized Representation(SpQR)压缩 LLMs,提出全新的压缩格式和量化技术,通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题,既能保存模型的准确性,又能达到先前方法相似的压缩水平,该方法的运行速度要比 16 位基线快,并实现超过 4 倍的内存压缩收益。