May, 2024

MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化

TL;DR通过开发一种混合精度量化框架 MixDQ,我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计,通过度量解耦灵敏度分析来衡量每一层的敏感度,最后通过基于整数规划的方法进行位宽分配,与现有的量化方法相比,MixDQ 在保持 W8A8 品质的同时,实现了模型大小和内存成本的 3-4 倍减少,和 1.45 倍的延迟加速。