Sep, 2023

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

TL;DR我们提出了一种内存高效的大型语言模型微调算法 (ModuLoRA),支持在只有一个 48GB 的 GPU 上以 3 位或 4 位精度对具有 65B 参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器 (LoRAs) 结合使用,我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA 在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,我们还超过了流行的摘要任务的最新 ROUGE 分数。我们将 ModuLoRA 与一系列低精度模型一起发布,其中包括第一个 3 位指令跟随型 Alpaca LLMs 系列,作为 LLMTOOLS 的一部分,LLMTOOLS 是一个用户友好的用于在消费级 GPU 上进行量化、运行和微调 LLMs 的库。