借助 SDQ 的结构稀疏性和量化方法,可以实现高计算和内存效率,并且在性能上只有不到 1% 的质量损失。
Jun, 2024
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过以较小的计算代价解决对大型语言模型(LLMs)进行量化和去量化操作时所面临的问题,我们提出了一种新的技术,并在不同模型和尺寸上进行了广泛实验,成功实现了每个权重的 2.85 位表示,模型的端到端加速比为 1.74 倍,同时降低了运行成本和硬件需求。
Nov, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的 GPU 矩阵乘法和解量化算法,支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。
Aug, 2023
通过稀疏性,我们能够以较小的模型实现更快的训练和推理加速,并且不牺牲准确性。
May, 2024
通过应用数据压缩技术来减少数据传输,从而提高在内存受限设备上量化化的大型语言模型推理的速度。
Mar, 2024
该论文提出了一个有效的推理框架用于大规模生成式语言模型,采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度,通过非均匀量化和 nuQmm 的加速矩阵乘法,实现了模型大小的减小,并减少了大型 LM 的推理延迟
Jun, 2022
通过 Sparse-Quantized Representation(SpQR)压缩 LLMs,提出全新的压缩格式和量化技术,通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题,既能保存模型的准确性,又能达到先前方法相似的压缩水平,该方法的运行速度要比 16 位基线快,并实现超过 4 倍的内存压缩收益。
Jun, 2023
该研究论文介绍了 Any-Precision LLM 的概念,并提出了一种轻量级的 Any-Precision 量化方法,以及对应的软件引擎,有效地解决了多个不同大小 LLM 的部署成本问题。
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023