BriefGPT.xyz
Ask
alpha
关键词
optimizer tuning
搜索结果 - 1
解决语言模型计算最优扩展的差异
Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,
→
PDF
9 days ago
Prev
Next