Jun, 2022

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

TL;DR本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。