Oct, 2023

指导调优的动力学:大型语言模型中的每个能力都有自己的增长速度

TL;DR基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。