Jan, 2024

语言模型的核心数据规模:一种全面理解的视角

TL;DR通过研究数据规模,我们发现了语言模型从快速记忆到慢速泛化的临界点,提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示,只有当语言模型达到一定的关键尺寸时才会发生泛化,我们对样本和模型进行了分析,验证了数据效率假设。我们的研究深化了对语言模型训练的理解,并提供了一个新的视角来解释数据在语言模型学习机制中的作用。