Apr, 2024

大型语言模型的时间尺度定律

TL;DR最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。