Feb, 2024

BitDistiller: 通过自我蒸馏释放次 4 位 LLMs 的潜力

TL;DRBitDistiller 是一种通过 Quantization-Aware Training (QAT) 和 Knowledge Distillation (KD) 相结合的方法,可以提高大型语言模型在超低精度(低于 4 位)下的性能,包括了量化和剪裁技术以及一种新颖的 Confidence-Aware Kullback-Leibler Divergence (CAKLD) 目标函数,经实证评估,在 3 位和 2 位配置上明显超越现有方法,并且更加经济高效。