循环神经网络的有效量化方法
本文通过量化神经网络的权重和激活值为多个 {-1,+1} 的二进制编码来解决在性能有限的移动设备和高并发服务器上部署神经网络时的问题,并在长短时记忆和门控循环单元等领域进行了测试,结果显示仅失去一定的准确性,我们可以通过两位量化实现约 16 倍的内存节省和约 6 倍的实际推理加速,在三位量化下,我们几乎不会失去准确性,甚至可以超越原始模型,同时节省约 10.5 倍的内存和约 3 倍的实际推理加速。
Feb, 2018
本文提出了一种有效的量化方法,可用于将循环神经网络(包括 LSTM,GRU 和 ConvLSTM)部署在 FPGA 和移动平台上,同时在 IMDB 情感分析和移动 MNIST 视频帧预测等数据集上取得了有希望的成果。
Feb, 2018
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过 MNIST、CIFAR-10、SVHN、ImageNet 和 Penn Treebank 数据集的测试,结果表明 1 位权重和 2 位激活的量化版本的 AlexNet 能够达到 51% 的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得 QNN 的运行速度能比未优化的 GPU 加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018
本文提出了一种新的量化方法,可以确保量化值分布的平衡性,通过对参数进行分位数递归划分并应用均匀量化,可以提高 QNN 的预测准确性,同时对训练速度几乎没有影响,并可适用于卷积神经网络和循环神经网络。
Jun, 2017
提出了一种用于 Gated Recurrent Units (GRU) 的模块化整数量化方案,通过遗传算法 (Genetic Algorithms) 优化 bit 宽度,以同时优化模型大小和准确性。在四个不同的顺序任务中,其混合精度解决方案在 Pareto 效率方面优于同质精度解决方案,实现模型大小减少 25% 至 55% 的同时,准确性与等效的 8 位同质模型可比。
Feb, 2024
本文提出了一种用于深度神经网络(DNN)压缩的联合训练方法,以便同时训练量化器和 DNN,以便量化网络权重和激活,并提高量化模型的预测准确性。在 CIFAR-10 和 ImageNet 数据集上进行的全面实验显示,该方法在各种网络结构上都运行良好,超越了以前的量化方法。
Jul, 2018
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本,并能实现 1%以下的 top-1 精度下降。
Apr, 2018