电弱单顶夸克生成的首次观测
本文提出了一种后训练量化方法,可以在不损失质量的情况下,在模型中针对 weight 使用较高的精度,大大降低了模型推理需要的 GPU 数量,实现了更高的经济性。
Jun, 2023
开发一种新颖的不确定性量化(UQ)框架,用于在缺乏实际数据的情况下估计患者生存模型的不确定性。通过基于 1383 名脑转移患者的数据集开发和评估我们的方法,我们的研究假设是推理过程中给定测试患者的事件发生时间更加确定,当其在训练集中与其他患者具有更高的特征空间相似性。因此,感兴趣患者的不确定性通过患者相似性排名和预测相似性排名的一致性指数来表示。通过与模型整体区分度指数相比,模型不确定性定义为最大不确定性约束下的增加百分比。我们在多个临床相关的终点变量上评估了我们的方法,包括颅内进展时间(ICP)、放疗后无进展生存时间(PFS)、总生存时间(OS),以及颅内进展时间和 / 或死亡时间(ICPD),应用了统计模型和非统计模型,如 CoxPH、条件生存森林(CSF)和神经多任务线性回归(NMTLR)。我们的结果显示,所有模型在颅内进展时间(2.21%)上的不确定性最低,而在颅内进展时间和 / 或死亡时间(ICPD)(17.28%)上的不确定性最高。总体而言,OS 模型的不确定性表现较高,其中 NMTLR 的不确定性最低(1.96%),而 CSF 的不确定性最高(14.29%)。综上所述,我们的方法可以估计个体患者生存模型的不确定性结果。正如预期的,我们的数据经验证明,通过我们的技术测量的模型不确定性的增加会导致特征空间与预测结果的相似性降低。
Nov, 2023
通过分别实验评估了三种量化方法(LQ,ACIQ 和 OCS)对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位,并在 GLUE 基准测试中保持 98%和 96%的性能,为资源受限环境中模型调整提供指导。
Oct, 2022
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 比特)更强大。
Mar, 2023
本文提出了一种新的方法,即将 activation quantization 纳入 post-training quantization 中,随机放弃激活量化,从而将 PTQ 的极限推向了 2 位。最终结果表明,QDROP 在图像分类、目标检测和文本分类任务中具有优异的表现,成为了 PTQ 现有技术中新的最佳方法。
Mar, 2022
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法,通过采用自适应软阈值方法分离显著权重,实现低精度量化(如 3 位)中无需任何校准数据的最先进性能,进一步提供隐私保护优势,而且在各种 LLM 基准测试中达到与现有方法相同的准确性,即使量化时间缩短至少 10 倍。
May, 2024
通过减少内存使用和提高操作速度,后训练量化(PTQ)能够增强大型语言模型(LLMs)的效率和与更多硬件的兼容性,尽管会导致一定的性能下降。然而,我们的研究发现在不同已知的开源 LLMs 中,校准集对于评估激活幅度和检测异常值至关重要,异常值可能扭曲量化范围并对性能产生负面影响。因此,我们建议重新评估当前量化文献的基础知识,从主要关注异常值保留转向优化推断速度,以适应现代化 LLMs 的特性。
May, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023