Feb, 2019
神经网络的低位量化以提高推理效率
Low-bit Quantization of Neural Networks for Efficient Inference
Yoni Choukroun, Eli Kravchik, Fan Yang, Pavel Kisilev
TL;DR本文提出了一种在有限硬件资源上实现预训练模型的 4 位整数(INT4)量化的优化方法,将线性量化任务形式化为最小均方误差(MMSE)问题,并对网络的每一层进行限制 MSE 问题的优化以及多个量化张量的硬件感知分区,除少量精度降低外,在多种网络架构上实现最先进的结果。