Sep, 2024

Qwen2.5-Math技术报告:通过自我改进迈向数学专家模型

TL;DR本研究针对数学领域的语言模型存在的数据不足问题,提出了一种创新的自我改进方法,涵盖训练前、训练后和推理阶段。研究发现,采用强化学习的最终奖励模型显著提高了模型的数学推理能力,能够有效处理多种难度的数学问题,推动数学教育与研究的进步。