关键词quantization-aware training
搜索结果 - 39
- 无需反向传播的注意力感知后训练量化
提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。
- Q-S5:朝向量化状态空间模型
探索量化对 S5 模型的影响以及将其部署到边缘和资源受限平台的有效性。使用量化感知训练(QAT)和事后量化(PTQ)系统评估了 SSM 在不同任务上的量化灵敏度,研究结果表明,循环权重低于 8 位精度时,大多数任务的性能显著下降,而其他组件 - LLM 的低秩量化感知训练
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方 - 用于高效再识别的嵌入式压缩
这篇论文研究了针对现实世界中物体再识别(ReID)算法的嵌入式压缩技术,通过量化感知训练和三种不同的降维方法(迭代结构化剪枝、初始化时对嵌入进行切片以及使用低秩嵌入)进行了压缩性能评估,发现嵌入可以压缩高达 96 倍,且性能下降较小,这意味 - TerDiT: 基于 Transformer 的三元扩散模型
我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有 - 自定义梯度估计器乃掩饰过后的直通式估计器
当学习速率足够小的时候,我们通过实验证明了一类大规模的权重梯度估计器等价于直通估计器 (STE),无需改变权重初始化和学习速率,可用于处理量化感知训练中的梯度问题。
- 量化感知训练的转换率调度
基于量化意识训练 (QAT) 的过程中,通过控制权重 / 激活的位精度来学习量化权重,通过更新潜在权重间接学习,本文提出了一种基于过渡速率 (transition rate) 的调度技术,通过调整量化权重的过渡点数目控制量化权重的变化程度, - 如何对不对称量化范围进行参数化,用于量化感知训练
本研究通过比较分析三种不对称均匀量化的参数化方法,即比例和偏移、最小值和最大值以及 β 和 γ,来研究其对量化感知训练的影响。我们使用控制实验和实际大型语言模型的数据进行全面分析,并着重探讨其在关键训练超参数、比特宽度和学习率变化时的行为。 - AdaQAT:自适应比特宽度量化感知训练
本文介绍了 AdaQAT,一种基于学习的方法,用于在训练过程中自动优化深度神经网络的权重和激活信号的比特宽度,以实现更高效的推断。相比其他方法,AdaQAT 在从头开始训练和微调场景中表现良好,并在 CIFAR-10 和 ImageNet - SQUAT: 循环脉冲神经网络中具有状态的量化感知训练
使用权重量化和量化感知训练 (QAT) 技术,研究了在功耗较低的神经网络中,通过为状态变量进行量化以提高推断性能的效果,并发现将量化级别密集分布在阈值附近可以提高准确性。在多个数据集上进行的实验评估表明,QAT 和状态量化训练 (SQUAT - 寻找最佳量化策略的可微分搜索
通过深度神经网络的量化算法的不同量化策略搜索,我们提出了一种可微分量化策略搜索(DQSS)方法,为每个层分配最优的量化策略,并在图像分类和图像超分辨率等计算机视觉任务中验证了其有效性。
- 使用激活正则化减轻离群通道对于语言模型量化的影响
准确的量化是语言模型的关键问题之一,我们研究了激活量化中的异常通道现象,并提出了一种调节输入和输出的策略,通过量化感知训练和激活峰度正则化来实现精确的 4 位参数量化。与权重后训练量化相结合,我们的方法可以获得与标准精度基准相竞争的 W4A - 量化 DNN 时代的魔法
本文提出了一种量化感知训练的方法,通过引入一种独立于小批量大小的新型规范化(Layer-Batch Normalization)和标准化权重的缩放环夹函数对权重进行量化,同时对激活函数使用同样的函数进行量化,并应用替代梯度来训练模型,实验证 - 自监督量化感知知识蒸馏
该论文提出了一种新颖的自监督量化感知知识蒸馏 (SQAKD) 框架,通过将量化感知训练与知识蒸馏相结合,同时最小化全精度模型与低比特模型之间的 KL-Loss 和量化的离散化误差,从而有效克服了现有方法需要繁琐的超参数调节、标签数据需求和复 - 通过一致性规则将量化感知训练推向全精度性能
该论文介绍了一种新颖的方法 ——Consistency Regularization(CR),通过将邻近数据分布信息注入到 Quantization-Aware Training(QAT)中,有效提高了 QAT 的泛化性能,实验证明该方法显 - EdgeQAT:基于熵和分布的量化感知训练用于边缘轻量级语言模型加速
提出了一种新的轻量级语言模型优化方法 EdgeQAT,通过熵和分布引导的量化感知训练,动态量化不同位宽的令牌,从而在边缘设备上实现推理加速,并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。
- BitDistiller: 通过自我蒸馏释放次 4 位 LLMs 的潜力
BitDistiller 是一种通过 Quantization-Aware Training (QAT) 和 Knowledge Distillation (KD) 相结合的方法,可以提高大型语言模型在超低精度(低于 4 位)下的性能,包括 - L4Q:大型语言模型的参数高效量化感知训练:基于 LoRA-wise LSQ
L4Q 是一种参数高效的量化感知训练算法,利用 LLMs 中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
- 量化近似正交递归神经网络
针对计算能力有限的设备,本文研究了正交循环神经网络(ORNNs)的量化问题,并提出了通过后训练量化和量化感知训练方法来实现量化正交 RNNs(QORNNs),实验结果表明量化感知训练比后训练量化更有效,最高效的模型在各种标准测试中达到与精确 - 减少量化 YOLO 网络训练中的振荡副作用
本文研究了量子化网络在边缘设备上的部署问题,提出了一种基于指数移动平均的更新方法和一种纠正振荡误差的简单校正方法,经过大量评估实验证明这些方法能够改善低精度下的 YOLO 网络在目标检测和分割任务上的性能。