BriefGPT.xyz
大模型
Ask
alpha
关键词
grass
搜索结果 - 1
Grass: 结构稀疏梯度的计算高效低内存 LLM 训练
本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。
PDF
9 days ago
Prev
Next