BriefGPT.xyz
Feb, 2024
高效扩展的LLMs
Scaling Efficient LLMs
HTML
PDF
B. N. Kausik
TL;DR
通过比较理论和经验估计当前规模下的训练损失,我们研究了最高效的已训练LLMs,并提出其参数数量和训练语料库规模之间的关系,结论为:(1)要在训练语料库中表示双倍的技能,必须将语料库规模扩大大约三到五倍。(2)对于最高效的LLMs,参数数量N与自然训练语料库的大小D呈现N∼D^0.58的关系。(3)如果LLMs的参数数量小于训练语料库中的唯一序列数量,扩大规模可以发现新的技能。
Abstract
trained llms
are typically sparse in that most of the
parameters
are zero, raising questions on efficiency. In response, we inquire into
efficien
→