Jun, 2024

协调 Kaplan 和 Chinchilla 比例定律

TL;DR该研究重点研究了 transformers 在语言预测任务中的缩放行为,探讨了参数设置和计算预算对模型性能的影响,并解释了 Kaplan 等人估计过高的原因。