May, 2024

观察性缩放律与语言模型性能的可预测性

TL;DR通过观测法利用多个已有模型家族构建单一的扩展律,展示了复杂的扩展现象是可预测的,模型性能可以从简单的非代理基准准确预测,预测了后期训练干预的影响。