Oct, 2023

从错误中学习使 LLM 成为更好的推理者

TL;DR利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。