Apr, 2025

GaLore 2:通过梯度低秩投影进行大规模LLM预训练

TL;DR本研究解决了大语言模型在训练过程中面临的显著内存瓶颈问题。通过梯度低秩投影,GaLore 2 提供了一种高效且可扩展的框架,克服了SVD计算开销及与先进训练并行化策略整合的挑战。研究表明,GaLore 2可通过高达5000亿个训练标记从零开始预训练Llama 7B,展现了其在现实LLM预训练场景中的潜在影响。