BriefGPT.xyz
大模型
Ask
alpha
关键词
training tokens
搜索结果 - 1
训练最优的大型语言模型
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla,该模型在大范围的下游评估任务中均匀且显著
→
PDF
2 years ago
Prev
Next