量化如何影响多语言 LLMs?
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型(LLMs)有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势,但现有研究指出,量化可能损害性能并加剧 LLMs 中的偏见。本研究通过考虑语言模型类型和规模等因素,调查了量化模型的置信度和校准情况,揭示了通过 GPTQ 进行 4 位量化会导致对真实标签置信度的降低,同时不同语言模型之间观察到的影响差异。另外,本研究观察到在不同规模下对置信度影响的波动。最后,我们提出了一种基于置信度水平的量化损失解释,表明量化不成比例地影响了一开始完整模型置信度较低的样本。
May, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的 LLM PTQ 流水线。
May, 2024
利用量化技术减少大型语言模型(LLM)的内存使用,但本文首次从安全角度研究了量化技术的负面影响,揭示了广泛使用的量化方法可能被利用以产生有害的量化 LLM,从而欺骗用户部署恶意量化模型。
May, 2024
量化作为一种改善大型语言模型的存储和计算效率的有前途的技术,本研究以新的扰动视角,研究了量化与大型语言模型性能之间的关系,并发现了扰动特性与性能之间的联系,提供了改善模型量化鲁棒性的潜在解决方案,并在实验证明了基于这一视角的简单非均匀量化方法在权重和激活量化方面都能达到较小的性能损失,以此改善大型语言模型的效率而不牺牲性能。
Mar, 2024
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
本文研究了量化对语言模型的影响,重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响,实验证明 4 位量化模型仍然存在这些新兴能力,而 2 位模型在这些能力测试中遭受严重性能下降,通过模型微调和特定分析方法,本文揭示了量化对新兴能力影响的一系列重要发现,并为极低位量化提供了思路。
Jul, 2023
通过评估不同量化方法对不同规模的大型语言模型在长上下文环境下执行反馈增强生成任务的影响,研究发现对于表现良好的较小规模语言模型而言,量化并不会削弱其长上下文推理能力,从而证明了利用量化的较小型语言模型进行反馈增强生成是可行的。
Jun, 2024