Jun, 2023

INT2.1: 通过低秩适应实现误差校正的可微量化大语言模型

TL;DR本文提出了一种新的方法,使用极度节约内存的微调方法和 Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调 VRAM 需求,并使精度达到了 INT2.1。同时,我们的方法适用于其他量化标准,如 INT3,INT4 和 INT8,为模型量化领域带来了重大的里程碑。