Aug, 2023

大型语言模型学习数学推理的规模关系

TL;DR探索大型语言模型中数学推理的挑战,研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响,发现预训练损失是模型性能的更好指标,应用不同数量的监督数据和拒绝抽样微调来改善模型性能,发现增加数据量与模型性能呈对数线性关系,增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。