Jun, 2023
SpQR:一种稀疏量化表示法,用于近无损LLM重量压缩
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression
TL;DR通过Sparse-Quantized Representation(SpQR)压缩LLMs,提出全新的压缩格式和量化技术,通过将所有其他权重压缩到3-4位并将异常权重以高精度存储以解决精度问题,既能保存模型的准确性,又能达到先前方法相似的压缩水平,该方法的运行速度要比16位基线快,并实现超过4倍的内存压缩收益。