ICLRFeb, 2018

循环神经网络的交替多比特量化

TL;DR本文通过量化神经网络的权重和激活值为多个 {-1,+1} 的二进制编码来解决在性能有限的移动设备和高并发服务器上部署神经网络时的问题,并在长短时记忆和门控循环单元等领域进行了测试,结果显示仅失去一定的准确性,我们可以通过两位量化实现约 16 倍的内存节省和约 6 倍的实际推理加速,在三位量化下,我们几乎不会失去准确性,甚至可以超越原始模型,同时节省约 10.5 倍的内存和约 3 倍的实际推理加速。