学生数学错误逐步纠正
该研究调查两个生成模型在评估真实教师在应对学生数学错误方面的表现能力,发现 GPT-3.5-Turbo 和 GPT-4 都能够熟练评估与学生犯错有关的标准,但在识别学生错误的情况下存在局限性。未来的研究将致力于通过评估更多对话数据集和评估学习转化来提升泛化能力,进一步分析教师在真实场景中应对学生数学错误的表现。
Jan, 2024
我们提出了一种基于数学误解的大型语言模型(LLM)数学推理能力的新评估方法。我们通过模拟 LLMs 作为初学者和专家导师,旨在识别由于特定误解导致的错误答案,并识别一个错误答案背后的误解。与传统基于 LLMs 的数学评估侧重于正确回答数学问题不同,我们的方法受到教育学习科学原则的启发。我们要求 LLMs 明确地模仿初学者通过基于不完整知识的特定错误方式回答问题,并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验,我们发现,尽管 LLMs 可以轻松正确回答这些问题,但它们难以识别:1)与特定不完整知识(误解)相对应的错误答案;2)解释特定错误答案的误解。我们的研究指出了增强 LLMs 数学推理能力的新机会,尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。
Oct, 2023
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。
Oct, 2023
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
尽管大型语言模型在许多自然语言任务中取得了成功,但解决数学问题仍然是一个巨大的挑战。本研究通过使用 MATH 数据集,探索了三种微调策略,即解决方案微调、解决方案聚类重新排序和多任务顺序微调,并发现这些方法可以显著提高模型的性能。
Oct, 2023
该研究介绍了创新的 “LLMs 作为教师” 的框架,利用先进的大型语言模型(LLMs)自动增强较小目标模型的训练。采用 “学习错误” 理论启发,该框架使用教师 LLM 细致分析目标模型中的具体错误,促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”,该框架实施了两种策略,分别关注错误响应以个性化训练数据,并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明,在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是,改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT,证明了我们方法的有效性。通过充分利用两种策略的优势,我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。
Jun, 2024
本论文探讨了基于期望最大化的简单自我训练方法 ReST$^{EM}$,在数学问题和编码基准测试中使用 PaLM-2 模型,细调模型,获得了在模型尺寸上的有利规模效应,并且明显超过仅使用人工数据的细调方法,总体而言,研究结果表明利用反馈进行自我训练可以大大减少对人工生成数据的依赖。
Dec, 2023