Oct, 2024

Fira:在低秩约束下能否实现大规模语言模型的全秩训练?

TL;DR本研究解决了低秩训练限制导致的大规模语言模型(LLMs)性能不足的问题。我们提出了一种新的训练框架Fira,通过基于范数的缩放方法保持低秩约束的同时实现全秩训练,从而提高性能。实验结果表明,Fira在预训练和微调过程中优于现有的LoRA和GaLore方法,且性能与全秩训练相当或更佳。