Feb, 2024

高效扩展的LLMs

TL;DR通过比较理论和经验估计当前规模下的训练损失,我们研究了最高效的已训练LLMs,并提出其参数数量和训练语料库规模之间的关系,结论为:(1)要在训练语料库中表示双倍的技能,必须将语料库规模扩大大约三到五倍。(2)对于最高效的LLMs,参数数量N与自然训练语料库的大小D呈现N∼D^0.58的关系。(3)如果LLMs的参数数量小于训练语料库中的唯一序列数量,扩大规模可以发现新的技能。