Mar, 2024

FrameQuant: 柔性低位量化技术用于变换器

TL;DR通过引入从谐波分析中借用的融合框架的概念,我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位(加一些开销),并只在准确性上稍有降低,通过实验证明,此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。