Jun, 2023

使用层间依赖增强Hessian矩阵,用于混合精度后训练量化

TL;DR提出了一种混合精度后训练量化(PTQ)方法,使用二阶信息和层间依赖关系指导双分搜索,以在用户可配置的模型准确度降低范围内找到量化配置。 该方法可以降低内存占用并提高延迟,同时保持模型准确性。