低精度 RNN:量化 RNN 而不失准确性
本文提出了一种量化 LSTM 和 GRU 细胞中的门和互联结构的方法以及平衡量化权重的方法,通过在 PTB 和 IMDB 数据集上的实验证明了该方法的有效性,该方法在减小存储大小和内存使用方面优于之前的量化 RNN,并且可以加速训练和推理。
Nov, 2016
本研究着眼于 RNN 模型的计算资源需求问题,提出了一种通过降低权重与偏置数值精度的方法来优化模型计算的解决方案,并在两种主要的 RNN 模型及三个数据集上进行了实验,结果表明使用随机和确定性三值化、pow2 - 三值化和指数量化方法均能生成低精度的 RNN 模型,并在某些数据集上甚至能获得更高的准确率,从而为开发特殊低功耗硬件的 RNN 训练提供更加高效的实现途径。
Nov, 2016
本文通过量化神经网络的权重和激活值为多个 {-1,+1} 的二进制编码来解决在性能有限的移动设备和高并发服务器上部署神经网络时的问题,并在长短时记忆和门控循环单元等领域进行了测试,结果显示仅失去一定的准确性,我们可以通过两位量化实现约 16 倍的内存节省和约 6 倍的实际推理加速,在三位量化下,我们几乎不会失去准确性,甚至可以超越原始模型,同时节省约 10.5 倍的内存和约 3 倍的实际推理加速。
Feb, 2018
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过 MNIST、CIFAR-10、SVHN、ImageNet 和 Penn Treebank 数据集的测试,结果表明 1 位权重和 2 位激活的量化版本的 AlexNet 能够达到 51% 的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得 QNN 的运行速度能比未优化的 GPU 加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本研究通过基于再训练的量化方法分析了循环神经网络的定点性能,研究了 RNN 每一层的量化敏感度,并提出了能够在不损失性能的情况下最小化权重容量的整体定点优化结果。实验使用了语言模型和音素识别示例。
Dec, 2015
本文提出了一种有效的量化方法,可用于将循环神经网络(包括 LSTM,GRU 和 ConvLSTM)部署在 FPGA 和移动平台上,同时在 IMDB 情感分析和移动 MNIST 视频帧预测等数据集上取得了有希望的成果。
Feb, 2018
针对计算能力有限的设备,本文研究了正交循环神经网络(ORNNs)的量化问题,并提出了通过后训练量化和量化感知训练方法来实现量化正交 RNNs(QORNNs),实验结果表明量化感知训练比后训练量化更有效,最高效的模型在各种标准测试中达到与精确度 ORNN 和 LSTM 相似的结果,即使使用了 3 位量化。
Feb, 2024
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018