Oct, 2024
Fira:在低秩约束下能否实现大规模语言模型的全秩训练?
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank
Constraint?
TL;DR本研究解决了低秩训练限制导致的大规模语言模型(LLMs)性能不足的问题。我们提出了一种新的训练框架Fira,通过基于范数的缩放方法保持低秩约束的同时实现全秩训练,从而提高性能。实验结果表明,Fira在预训练和微调过程中优于现有的LoRA和GaLore方法,且性能与全秩训练相当或更佳。