HLQ: 基于 Hadamard 低秩量化的快速高效反向传播
LoQT 是一种用于高效训练量化模型的方法,它使用基于梯度的张量分解来初始化可训练的低秩权重矩阵,并周期性地合并到量化全秩权重矩阵中。我们发现 LoQT 使得在消费级 24GB GPU 上能够高效地训练高达 7B 参数的模型,并且还展示了在相同硬件上使用逐层梯度更新训练 13B 参数模型的可行性。
May, 2024
本篇论文讨论了深度神经网络量化的训练过程,提出了一种对称、无偏、对数化的量化方法,能够达到新的四位量化水平,有效地减少了量化过程的计算开销,同时在 ResNet50 on ImageNet 中实现了 1.1% 的降低率。
Dec, 2021
该研究论文介绍了一种名为 HadaNets 的新型神经网络模型,可以在不占用太多内存和训练时间的情况下有效地训练和推理深度神经网络,同时具有优秀的模型压缩性能。
May, 2019
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
提出了一种名为 LBP-WHT 的新方法来加速 Vision Transformers(ViT)的 Fine-tuning 过程,通过将梯度投影到低秩空间来显著减少计算需求,实验证明该方法在多个数据集上有效,并与其他方法相结合以取得更好性能。
Sep, 2023
本篇论文研究了神经网络训练中的内存占用问题,在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化,以显著减少内存占用和保证相同的收敛性能。
Feb, 2022
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
研究深度神经网络的激活量化问题,提出了一种半波高斯量化器(HWGQ)来近似 ReLU 非线性激活函数,并探讨了多种反向逼近方式以解决梯度失配问题,实现的量化网络 HWGQ-Net 的性能比以前的低精度网络如二进制权重和二位量化激活的网络接近全精度网络(如 AlexNet,ResNet,GoogLeNet 和 VGG-Net)。
Feb, 2017