Jun, 2022
ZeroQuant: 大规模Transformer的高效和实惠的后训练量化
ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers
TL;DR本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型Transformer-based模型。ZeroQuant采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。