OneBit: 极低位大型语言模型
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化LLMs(PB-LLM),我们能够在保持低位量化的同时保持LLMs的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化LLMs容量的方法。这些研究和方法对于改善低位量化LLMs的性能以及网络二值化在LLMs领域的发展具有重要的意义。
Sep, 2023
BiLLM是一种创新的1位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理,超过了LLM的SOTA量化方法。此外,BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程,显示了令人满意的时间效率。
Feb, 2024
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
本研究解决了大规模语言模型(LLM)在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化(VPTQ)方法,通过二阶优化改进量化算法,并提出有效的码本初始化算法,从而在达到极低比特量化的同时提高了模型准确性。实验结果表明,VPTQ在多个模型上显著降低了量化困惑度,并提高了推断吞吐量。
Sep, 2024
本研究针对大语言模型在实际应用中面临的高内存和计算需求问题,提出低比特量化作为一种解决方案。论文通过系统性综述低比特量化方法,涵盖基本原理、系统实现以及算法策略,为未来大语言模型的高效性和适用性提供了重要的见解和指导。
Sep, 2024
本文针对大型语言模型在实际应用中面临的高内存和计算需求问题,提出了低比特量化作为解决方案。通过系统地总结低比特量化的方法和实现,提供了基础概念、系统框架及高效训练与推理技术的深入分析,指出未来低比特大型语言模型发展的潜力和趋势。
Sep, 2024