CMS 实验中的 b 强子喷注鉴别
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
大型语言模型(LLMs)可以产生展现社交偏见并支持刻板印象的回答。然而,传统的基准测试无法充分评估 LLM 偏见,因为它无法扩展到大量的提示集,并且没有提供保证。因此,我们提出了一种新的认证框架 QuaCer-B(Bias 的定量认证),它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证,并呈现关于其偏见的新见解。
May, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
通过减少内存使用和提高操作速度,后训练量化(PTQ)能够增强大型语言模型(LLMs)的效率和与更多硬件的兼容性,尽管会导致一定的性能下降。然而,我们的研究发现在不同已知的开源 LLMs 中,校准集对于评估激活幅度和检测异常值至关重要,异常值可能扭曲量化范围并对性能产生负面影响。因此,我们建议重新评估当前量化文献的基础知识,从主要关注异常值保留转向优化推断速度,以适应现代化 LLMs 的特性。
May, 2024
通过评估不同量化方法对不同规模的大型语言模型在长上下文环境下执行反馈增强生成任务的影响,研究发现对于表现良好的较小规模语言模型而言,量化并不会削弱其长上下文推理能力,从而证明了利用量化的较小型语言模型进行反馈增强生成是可行的。
Jun, 2024
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
May, 2024
提出了一种名为 QFT 的新型量化全参数调优框架,可以实现内存高效调优而不损害性能。该框架采用高效的 Lion 优化器和整数值量化的模型状态存储方法,并提供了梯度流和参数更新方案。结果表明,QFT 将模型状态内存减少到标准解决方案的 21%,同时达到可比较的性能,例如,调优 LLaMA-7B 模型仅需 30GB 内存,一张 A6000 GPU 即可满足。
Oct, 2023