Jul, 2024

更大小批量的内存高效训练大型语言模型

TL;DR本研究解决了在有限GPU内存条件下训练大型语言模型(LLMs)时,如何利用较小的小批量来模拟更大小批量训练动态的问题。我们提出了一种子模最大化的方法,以选择小批量样本,并展示了该方法在内存需求上可减少2倍,训练速度可提升1.3倍的优势,具有重要的实际应用价值。