Jun, 2024
Grass: 结构稀疏梯度的计算高效低内存 LLM 训练
Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients
Aashiq Muhamed, Oscar Li, David Woodruff, Mona Diab, Virginia Smith
TL;DR本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。