Jun, 2024

Grass: 结构稀疏梯度的计算高效低内存 LLM 训练

TL;DR本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。