对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
大型语言模型中的参数数量、量化、超参数和推理速度的研究分析
Sep, 2023
研究语言模型在压缩模型时的精度与模型大小之间的平衡,发现在总模型位和零 - shot 准确度方面,{4 位} 精度几乎普遍最优。
Dec, 2022
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的 LLM PTQ 流水线。
May, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
通过应用数据压缩技术来减少数据传输,从而提高在内存受限设备上量化化的大型语言模型推理的速度。
Mar, 2024
本文研究了量化对语言模型的影响,重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响,实验证明 4 位量化模型仍然存在这些新兴能力,而 2 位模型在这些能力测试中遭受严重性能下降,通过模型微调和特定分析方法,本文揭示了量化对新兴能力影响的一系列重要发现,并为极低位量化提供了思路。
Jul, 2023
该研究中,我们将经典的多码本量化方法应用于语言模型的压缩,实现了对开放式大规模语言模型的极端压缩,提高了在给定压缩预算下的准确性。
Jan, 2024
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估,经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估,最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外,通过执行时间衡量模型的计算效率,7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。