Mar, 2022

FxP-QNet: 一种用于混合低精度 DNN 设计的训练后量化器,采用动态定点表示

TL;DR本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中,模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩,同时准确率只有不到 2% 的损失。