Feb, 2019

神经网络的低位量化以提高推理效率

TL;DR本文提出了一种在有限硬件资源上实现预训练模型的 4 位整数(INT4)量化的优化方法,将线性量化任务形式化为最小均方误差(MMSE)问题,并对网络的每一层进行限制 MSE 问题的优化以及多个量化张量的硬件感知分区,除少量精度降低外,在多种网络架构上实现最先进的结果。