Feb, 2024

重新思考微型语言模型的优化和架构

TL;DR通过实证研究基于一个亿参数的小型语言模型,在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响,找到了多个设计公式,如令牌压缩、结构微调、参数继承和多轮训练等,证实了它们对小型语言模型的有效性,进一步优化和改进模型的效果明显,验证了其优越性能。