DB-LLM:用於高效LLMs的準確雙二元化
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化LLMs(PB-LLM),我们能够在保持低位量化的同时保持LLMs的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化LLMs容量的方法。这些研究和方法对于改善低位量化LLMs的性能以及网络二值化在LLMs领域的发展具有重要的意义。
Sep, 2023
BiLLM是一种创新的1位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理,超过了LLM的SOTA量化方法。此外,BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程,显示了令人满意的时间效率。
Feb, 2024
本研究提出了EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快10倍以上。
Mar, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
本文提出了一种基于显著性驱动的混合精度量化方案,即SliM-LLM,用于改进大型语言模型的精度和内存占用,并通过集成梯度量化器进一步减少困惑度。
May, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
我们提出了一种简单的变量量化方法,该方法将大型语言模型的不同层在不同的比特级别上进行量化,通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。
Jun, 2024
本研究针对大语言模型在实际应用中面临的高内存和计算需求问题,提出低比特量化作为一种解决方案。论文通过系统性综述低比特量化方法,涵盖基本原理、系统实现以及算法策略,为未来大语言模型的高效性和适用性提供了重要的见解和指导。
Sep, 2024
本文针对大型语言模型在实际应用中面临的高内存和计算需求问题,提出了低比特量化作为解决方案。通过系统地总结低比特量化的方法和实现,提供了基础概念、系统框架及高效训练与推理技术的深入分析,指出未来低比特大型语言模型发展的潜力和趋势。
Sep, 2024
本研究针对大语言模型(LLM)在实际应用中面临的高内存和计算需求问题,提出了一种新颖的后训练量化技术ARB-LLM。通过交替精细二元化算法,研究有效缩小了二元权重与全精度权重之间的分布差距,并引入列偏差的处理策略,从而实现了对现有二元化方法的显著性能提升。
Oct, 2024