BriefGPT.xyz
Apr, 2024
大型语言模型的时间尺度定律
Temporal Scaling Law for Large Language Models
HTML
PDF
Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin...
TL;DR
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Abstract
Recently,
large language models
(LLMs) are widely adopted in a wide range of tasks, leading to increasing attention towards the research on how
scaling
LLMs affects their performance. Existing works, termed as
→