提出了一种名为 QBitOpt 的算法,通过量化感知训练(QAT)期间更新比特宽度,将位宽分配问题转化为约束优化问题,利用快速计算的灵敏度和高效求解器,生成满足严格资源约束的高性能任务的混合精度网络。在常见的位宽约束下,在 ImageNet 上评价 QBitOpt 并证实了在固定和混合精度方法中的优越性。
Jul, 2023
本研究提出了一种名为 DQMQ 的新型混合精度量化框架,可动态地适应不同数据质量,通过学习一个决策规则,它被建模为一种混合强化学习任务,该任务结合了基于模型的策略优化和监督量化训练。通过在混合质量的图像数据集上进行训练,DQMQ 可以在面对不均匀输入质量时隐式地选择每个层的最适宜比特宽度,在各种基准数据集和网络上的大量实验表明,DQMQ 比现有的固定 / 混合精度量化方法更为优越。
Feb, 2023
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018
本文提出了一种新的随机可微量化(SDQ)方法,利用不同层和模块的优化比特宽度来自动学习混合精度量化策略,并利用熵感知的分 bin 正则化和知识蒸馏对网络进行训练,经过在不同硬件和数据集上广泛的评估,SDQ 在较低的比特宽度下优于所有最先进的混合或单精度量化,甚至优于各种 ResNet 和 MobileNet 家族的全精度对应物,展示了我们的方法的有效性和优越性。
Jun, 2022
引入混合精度量化方法到异构资源联邦学习系统中以解决通信和计算瓶颈问题,并在多个模型架构和数据集上进行了广泛的基准性实验验证其优于固定精度量化的性能。
Nov, 2023
该研究提出利用量化器中的可学习参数作为量化精度重要指标,通过一次整数线性规划来确定混合精度量化的最佳位宽以提高时间效率,并在多种模型中实现了 SOTA 精度。
Mar, 2022
本文提出了一种新颖的一次性剪枝量化(OPQ)方法,使用预先训练的模型参数解决剪枝和量化问题,并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验,结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。
May, 2022
量化是一种用于创建高效深度神经网络的技术,可以通过以低于 32 位浮点精度的比特宽度执行计算和存储张量来减小模型大小和推理延迟,但量化可能导致舍入误差引起的数值不稳定性,降低量化模型的准确性,而 MixQuant 则是一种搜索算法,根据舍入误差为每个层权重找到最佳的自定义量化比特宽度。
Sep, 2023
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021
本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题,将讨论延伸量化感知训练的方法,实现了仅在每个前向传递过程中量化不同的一组随机权重,从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的,并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。
Apr, 2020