Dec, 2023

SmoothQuant+: 精确高效的LLM后训练4位权重量化

TL;DR提出了SmoothQuant+方法,它是一种准确而高效的4位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过SmoothQuant+,Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度,并且相较于在两张A100 40GB GPUs上部署的FP16模型,能够提高1.9至4.0倍的吞吐量,每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。