Jul, 2024

52B到1T:通过远程FLM系列学到的经验教训

TL;DR大语言模型(LLMs)代表了人工通用智能的重大进展。本技术报告基于我们之前的Tele-FLM(也称为FLM-2)工作,探讨了两个主要方面:首先,我们讨论了在Tele-FLM-52B上的监督微调(SFT)的观察结果,支持“少即是多”方法用于SFT数据构建;其次,我们展示了从520亿到1020亿,以及到1万亿参数进行模型逐步扩展的最佳实践的实验和分析。我们将开源一个1T模型检查点,即Tele-FLM-1T,以推动进一步的培训和研究。