BriefGPT.xyz
Oct, 2020
自回归生成建模的规模定律
Scaling Laws for Autoregressive Generative Modeling
HTML
PDF
Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse...
TL;DR
通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域,我们发现交叉熵损失的实证缩放定律,指出自回归变压器在性能上平滑提高,其最佳模型大小还受到计算预算影响,同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放定律对于神经网络性能以及下游任务的重要影响。
Abstract
We identify empirical
scaling laws
for the
cross-entropy loss
in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cas
→