迈向端到端基于生成型大语言模型的4位推理
该论文提出了一个有效的推理框架用于大规模生成式语言模型,采用自我监督学习和Transformer架构的最新进展实现了低困惑度,通过非均匀量化和nuQmm的加速矩阵乘法,实现了模型大小的减小,并减少了大型LM的推理延迟
Jun, 2022
本研究提出了GPTQ一种新的一次性量化方法,可以在4个GPU小时内将GPT模型的参数数量降至1750亿,每个权重只需使用3到4个比特位即可恢复几乎与未压缩基线相同的准确性,在单个GPU内执行1750亿参数模型,快于使用FP16格式的GPU,且可提供3.25倍至4.5倍的推理加速度。
Oct, 2022
通过引入SqueezeLLM后训练的量化框架,该框架不仅实现了高达3位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
该研究探讨了在大型语言模型中进行训练后参数量化。通过引入具有不相干处理(QuIP)的量化方法,研究人员发现其在减少权重和Hessian矩阵的量化误差方面表现良好,经过优化的舍入过程以及通过随机正交矩阵进行预处理和后处理可进一步提高效果,成功实现了每个权重仅使用两个比特的LLM量化方法。
Jul, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
本研究审查了大型语言模型中的4位量化方法,重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现INT4量化在其中显著性能不佳。然而,转向高精度格式如FP6却面临挑战,因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用FP6量化,codestar-15B模型在代码生成方面表现与其FP16对等,对于较小的模型如406M,与摘要生成的基准模型非常接近,而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能,我们提出了一种用于FP6的新颖4+2设计,以达到与最先进的INT4精细的量化相似的时延。通过我们的设计,FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。
Dec, 2023
本研究针对大型语言模型(LLM)推理效率不足的问题,通过对不同硬件平台的综合调查,提出多种优化方法,以提升生成式LLM的推理性能。论文的关键发现是,比对不同硬件平台的推理性能,可以为未来的生成式LLM与硬件技术的发展提供重要的指导。
Oct, 2024
本研究解决了1位大型语言模型(LLM)中推理成本高且性能下降的问题。通过引入BitNet a4.8,采用混合量化和稀疏化策略,实现在注意力和前馈网络层中使用4位激活,并对中间状态进行稀疏化,经过大量实验,证明其推理速度更快且与BitNet b1.58相当的性能,提高了大型LLM的效率。
Nov, 2024