BriefGPT.xyz
Jan, 2020
神经语言模型的缩放律
Scaling Laws for Neural Language Models
HTML
PDF
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess...
TL;DR
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Abstract
We study
empirical scaling laws
for
language model performance
on the
cross-entropy loss
. The loss scales as a power-law with
→