Jul, 2024

EfficientQAT: 大型语言模型的高效量化感知训练

TL;DR使用EfficientQAT,一种新的量化技术,可以通过压缩大型语言模型来减少内存需求,同时保持较低的精度损失。