May, 2023

CodeGen2:训练大型语言模型处理编程和自然语言的经验教训

TL;DR本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率,并在 1B LLMs 上开展了一系列实验,提炼出四个教训并发布了 CodeGen2 模型和训练框架。