low-precision quantization | BriefGPT

关键词low-precision quantization

搜索结果 - 4

OAC：用于准确的训练后量化的输出自适应校准
大语言模型的压缩和量化是一项重要的研究领域，本文提出了一种输出自适应校准的方法，用于减少压缩和量化过程中的信息损失，并在极低精度量化方面取得了优于现有方法的表现。
PDFa month ago
CVPRPikeLPN: 低精度神经网络的潜在效率问题缓解
低精度量化在神经网络优化中得到广泛应用，非量化的逐元素操作主导了低精度模型的推理成本，本文提出了 ACEv2 以更好地衡量量化模型的推理成本和能耗，并介绍了一种名为 QuantNorm 的批归一化层的新型量化技术，以及应用双量化解决量化缩放
PDF3 months ago
可训练的等效转换：用于 LLMs 的量化
这篇论文介绍了一种可训练的等价转换方法，能够在保持模型输出的 FP32 精度的情况下，利用低精度量化，特别是 3 位和 4 位的权重量化来满足现代架构的计算需求，该方法在训练过程中轻量级且对推断过程没有计算开销，与当前最先进方法的结果相媲美
PDF9 months ago
Q-BERT: 基于 Hessian 的 BERT 超低精度量化
本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析，提出了一种超低精度量化 BERT 模型的新方法，并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试，证明我们的新方法实现
PDF5 years ago