Jun, 2024

解决语言模型计算最优扩展的差异

TL;DRKaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与 Hoffmann 等人(即 “Chinchilla”)的定律取得了很好的一致性;与 Hoffmann 等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。