Feb, 2024

LoRETTA:用于大型语言模型超低参数微调的低秩经济张量列车适应

TL;DRLoRETTA 是一个超参数效率的框架,通过张量列车分解显著减少可训练参数,提供高性能轻量化的支持 LLMs 微调的方法。通过权重参数化和小张量因子来实现微调,LoRETTA 在 LLaMA-2-7B 模型上可实现与大多数广泛使用的 PEFT 方法相近或更好的性能,同时参数少达到高达 100 倍。实验证明该方法有效提高训练效率,具有更好的多任务学习性能和抗过拟合能力。插拔式代码将基于 Huggingface 框架和 PEFT 库发布。