Jul, 2024

高效地使用8个GPU在1百万序列长度上训练70亿层次语言模型

TL;DRMEMO是一种用于大规模语言模型(LLM)训练的新型框架,通过细粒度的激活内存管理实现高效训练,包括依层次的激活重计算与交换机制以及内存复用优化,实现了极高的模型浮点计算的利用率,以及降低内存碎片化与通信开销,从而在仅使用8个A800 GPU上,在处理1百万序列长度的7B LLM时达到了52.30%的MFU。