Apr, 2025

通过学习与遗忘教导大型语言模型推理

TL;DR本研究针对大型语言模型在解决复杂数学和推理问题时的推理能力不足这一问题,提出了一种新的方法,通过结合成功和失败的推理路径进行微调,直接增强模型的搜索能力。研究发现,采用较小的学习率可以有效减缓模型的性能下降,从而在多个推理基准测试中,显著提高了模型的表现并减少了180倍的推理时间。