高效扩展的LLMs

Feb, 2024

Scaling Efficient LLMs

B. N. Kausik

TL;DR通过比较理论和经验估计当前规模下的训练损失，我们研究了最高效的已训练LLMs，并提出其参数数量和训练语料库规模之间的关系，结论为：(1)要在训练语料库中表示双倍的技能，必须将语料库规模扩大大约三到五倍。(2)对于最高效的LLMs，参数数量N与自然训练语料库的大小D呈现N∼D^0.58的关系。(3)如果LLMs的参数数量小于训练语料库中的唯一序列数量，扩大规模可以发现新的技能。

Abstract

trained llms are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficien