PACT: 量化神经网络的参数化剪切激活
本研究提出了一种针对权重和激活值分别进行的深度学习量化技术,该技术结合了权重量化方案 SAWB 和激活量化技术 PACT,在多个模型和数据集上实现了媲美全精度网络的最新分类精度。
Jul, 2018
提出了一种新的 quantization 方法,scale-adjusted training (SAT),以更高效地训练神经网络,并分析了参数化剪辑激活(PACT)技术中梯度计算引入的量化误差。结合 SAT 和梯度校准的 PACT,量化模型可以达到与全精度模型相当甚至更好的性能,并在包括 MobileNet-V1 / V2 和 PreResNet-50 在内的大范围模型上持续改进,达到了最先进的精度。
Dec, 2019
本文提出了一种名为 ActNN 的基于随机量化激活值实现的内存高效训练框架,该框架针对神经网络训练过程中内存不足的问题,利用分层、分维度、分样本的异质性进行多样化的量化,以达到减小内存占用和缩短训练时间的目的,Empirically 验证了 ActNN 的有效性,并表明其不会带来过大的精度损失。
Apr, 2021
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
本文提出了一种新的方法,即将 activation quantization 纳入 post-training quantization 中,随机放弃激活量化,从而将 PTQ 的极限推向了 2 位。最终结果表明,QDROP 在图像分类、目标检测和文本分类任务中具有优异的表现,成为了 PTQ 现有技术中新的最佳方法。
Mar, 2022
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过 MNIST、CIFAR-10、SVHN、ImageNet 和 Penn Treebank 数据集的测试,结果表明 1 位权重和 2 位激活的量化版本的 AlexNet 能够达到 51% 的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得 QNN 的运行速度能比未优化的 GPU 加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本文研究了一种通过使权重和激活的位宽自适应来实现神经网络自适应配置的新方法,并探究了直接适应、渐进适应和联合训练等多种方法,最终提出了一种称为 S-CL 的新技术,证明了通过位宽自适应可以在实现高精度的同时实现高效率,从而在真实世界应用中快速适配。
Dec, 2019
本文提出了一种简单而有效的数据自由量化方法,通过准确的激活剪辑和自适应批量归一化来提高模型的准确性和处理量化误差。广泛的实验证明,该方法可以取得惊人的性能,达到了 ImageNet 数据集上 ResNet18 的 64.33% 的 top-1 准确度,比现有的最先进方法提高了 3.7% 的绝对值。
Apr, 2022
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本,并能实现 1%以下的 top-1 精度下降。
Apr, 2018
准确的量化是语言模型的关键问题之一,我们研究了激活量化中的异常通道现象,并提出了一种调节输入和输出的策略,通过量化感知训练和激活峰度正则化来实现精确的 4 位参数量化。与权重后训练量化相结合,我们的方法可以获得与标准精度基准相竞争的 W4A4 模型。
Apr, 2024