Aug, 2024

SIaM:自我提升的代码辅助大型语言模型数学推理

TL;DR本研究解决了现有大型语言模型在数学问题求解中的局限性,尤其是对训练数据的过度依赖。提出了一种新颖的方法,通过代码基础的评论模型引导数据构建和质量控制,探索不同的对齐算法以实现模型的持续改进。实验结果显示,所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。