BriefGPT.xyz
大模型
Ask
alpha
关键词
rejection sampling fine-tuning
搜索结果 - 1
大型语言模型学习数学推理的规模关系
探索大型语言模型中数学推理的挑战,研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响,发现预训练损失是模型性能的更好指标,应用不同数量的监督数据和拒绝抽样微调来改善模型性能,发现增加数据量与模型性能呈对数线性关系,增加更多
→
PDF
a year ago
Prev
Next