量化语言模型的泛化能力评估:基准、分析与工具箱
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的 LLM PTQ 流水线。
May, 2024
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。
May, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
Jun, 2024
本研究提出了 EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快 10 倍以上。
Mar, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
本文研究了量化对语言模型的影响,重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响,实验证明 4 位量化模型仍然存在这些新兴能力,而 2 位模型在这些能力测试中遭受严重性能下降,通过模型微调和特定分析方法,本文揭示了量化对新兴能力影响的一系列重要发现,并为极低位量化提供了思路。
Jul, 2023
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023