BriefGPT.xyz
Ask
alpha
关键词
memory overheads
搜索结果 - 3
混合专家后训练量化的研究:一个基准评估
大型语言模型的研究中,Mixture-of-Experts(MoE)方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展,但是由于显著的内存开销,在直接应用于 MoE 模型时,后训练量化的常规方法效果较差。本文所做工作在
→
PDF
24 days ago
MicroAdam:精确的自适应优化方法,低空间开销和可证明收敛性
提出了一种名为 MICROADAM 的 Adam 优化器新变种,它专门最小化内存开销,同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差,并实现实际的内存收益。证明了
→
PDF
a month ago
RTP: 重新思考张量并行性与内存去重
该研究深入探讨了旋转张量并行性(RTP),这是一种创新的方法,针对训练大规模模型中的显著内存开销进行了战略性的内存去重,并优化了训练过程。实证评估结果表明,RTP 在分布式系统训练过程中的内存消耗与最优解非常接近,并且能够实现与分布式数据并
→
PDF
8 months ago
Prev
Next