OneBit: 极低位大型语言模型
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
通过以较小的计算代价解决对大型语言模型(LLMs)进行量化和去量化操作时所面临的问题,我们提出了一种新的技术,并在不同模型和尺寸上进行了广泛实验,成功实现了每个权重的 2.85 位表示,模型的端到端加速比为 1.74 倍,同时降低了运行成本和硬件需求。
Nov, 2023
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
1-bit Large Language Models (LLMs), such as BitNet b1.58, with ternary weights, define a new scaling law and offer high-performance and cost-effective solutions for training new generations of LLMs while enabling the design of hardware optimized for 1-bit LLMs.
Feb, 2024
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020