May, 2023

QLoRA: 基于量化的 LLMs 高效微调

TL;DRQLoRA 是一种高效的微调方法,它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中,以降低内存使用,同时保持全 16 位微调任务性能。它能够优化模型性能,并且在更小的内存占用下使用小的高质量数据集进行微调,甚至达到先前最先进性能等级的状态。