该研究提出了一种新颖的双二值化方法(DB-LLM),用于大型语言模型(LLMs)的超低位量化,以提高计算效率,并通过偏差感知蒸馏(DAD)方法减少预测失真,实现了超低位量化时的显著准确性提升和计算效率降低。
Feb, 2024
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程,显示了令人满意的时间效率。
本文提出 TernaryBERT,在 fine-tuned BERT 模型中采用了三元权重化,通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度,并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降,实验证明 TernaryBERT 不仅优于其他 BERT 量化方法,而且在 14.9 倍的情况下与全精度模型性能相当。
Sep, 2020
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型,其在摘要和机器翻译的下游任务中达到了较高的得分,同时比全精度模型高效 16 倍以上。
Jun, 2023
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
通过提出一种称为令牌缩放逻辑蒸馏的知识蒸馏方法,我们对大规模生成式语言模型进行了三值权重量化训练的首次评估,其中困惑度下降不到 1.0,推理任务并无准确性损失。
Aug, 2023
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。
Sep, 2023
利用一次训练的一揽子模型,通过去耦合共享权重、使用低秩适配器、调节采样率等方式,减少大型语言模型的内存需求和训练时间,同时保持高性能。
May, 2024