BriefGPT.xyz
Oct, 2024
《缩放规律估计指南》
A Hitchhiker's Guide to Scaling Law Estimation
HTML
PDF
Leshem Choshen, Yang Zhang, Jacob Andreas
TL;DR
本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集,提出了一套最佳实践,发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性,且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。
Abstract
Scaling Laws
predict the loss of a target
Machine Learning
model by extrapolating from easier-to-train models with fewer parameters or smaller training sets. This provides an efficient way for practitioners and r
→