Apr, 2025
GaLore 2:通过梯度低秩投影进行大规模LLM预训练
GaLore 2: Large-Scale LLM Pre-Training by Gradient Low-Rank Projection
TL;DR本研究解决了大语言模型在训练过程中面临的显著内存瓶颈问题。通过梯度低秩投影,GaLore 2 提供了一种高效且可扩展的框架,克服了SVD计算开销及与先进训练并行化策略整合的挑战。研究表明,GaLore 2可通过高达5000亿个训练标记从零开始预训练Llama 7B,展现了其在现实LLM预训练场景中的潜在影响。