Aug, 2023

基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型

TL;DR通过提出一种称为令牌缩放逻辑蒸馏的知识蒸馏方法,我们对大规模生成式语言模型进行了三值权重量化训练的首次评估,其中困惑度下降不到 1.0,推理任务并无准确性损失。