Oct, 2024

CrossQuant:一种具有更小量化内核的后训练量化方法,以精确压缩大规模语言模型

TL;DR本研究解决了后训练量化过程中大规模语言模型(LLM)激活量化后的准确性保持挑战。通过引入“量化内核”概念,研究发现减少量化内核比例有助于提高量化LLM的精度,特别是CrossQuant方法在压缩过程中显著降低了量化内核,为OPT和LLaMA模型达到更优的准确性和模型压缩效果。