Nov, 2023

RTP: 重新思考张量并行性与内存去重

TL;DR该研究深入探讨了旋转张量并行性(RTP),这是一种创新的方法,针对训练大规模模型中的显著内存开销进行了战略性的内存去重,并优化了训练过程。实证评估结果表明,RTP在分布式系统训练过程中的内存消耗与最优解非常接近,并且能够实现与分布式数据并行相当的性能,同时支持显著更大的模型。