学生数学错误逐步纠正
我们提出了一种基于数学误解的大型语言模型(LLM)数学推理能力的新评估方法。我们通过模拟LLMs作为初学者和专家导师,旨在识别由于特定误解导致的错误答案,并识别一个错误答案背后的误解。与传统基于LLMs的数学评估侧重于正确回答数学问题不同,我们的方法受到教育学习科学原则的启发。我们要求LLMs明确地模仿初学者通过基于不完整知识的特定错误方式回答问题,并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验,我们发现,尽管LLMs可以轻松正确回答这些问题,但它们难以识别:1)与特定不完整知识(误解)相对应的错误答案;2)解释特定错误答案的误解。我们的研究指出了增强LLMs数学推理能力的新机会,尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。
Oct, 2023
该研究调查两个生成模型在评估真实教师在应对学生数学错误方面的表现能力,发现 GPT-3.5-Turbo 和 GPT-4 都能够熟练评估与学生犯错有关的标准,但在识别学生错误的情况下存在局限性。未来的研究将致力于通过评估更多对话数据集和评估学习转化来提升泛化能力,进一步分析教师在真实场景中应对学生数学错误的表现。
Jan, 2024
智能辅导系统中的自动反馈组件通常采用基于模板的方法,但在开放式数学问题中存在大量不同的错误类型。本研究使用大型语言模型来生成开放式数学问题的反馈,发现尽管能够学习反馈的格式,但无法完全理解学生的数学错误。
May, 2024
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024
本研究解决了大型语言模型(LLM)在教学中的有效使用问题,提出了“教学引导”概念,以改善LLM的教学能力。通过开发StratL算法并实施“产品性失败”策略的原型辅导系统,研究表明该算法能够有效引导LLM执行教学策略,并验证了其在生成类人回答方面的溢出效应。本文强调了教学引导中的挑战并提出改进机会。
Oct, 2024
本研究解决了小型语言模型在复杂数学推理中无法有效识别和纠正推理错误的问题。我们提出了一种新颖的双阶段框架SuperCorrect,利用大型教师模型来监督和纠正学生模型的推理过程,显著提高了其自我纠正能力。实验表明,SuperCorrect-7B模型在MATH和GSM8K基准测试中超过了现有最强模型,取得了新的最优性能。
Oct, 2024
本研究解决了在智能辅导系统中生成有效教育提示的挑战,特别是针对学生的错误认识和教育目标。通过使用GPT-4o和Llama-3-8B-instruct生成提示,研究确认了特定错误提示在帮助学生自我纠正中的有效性,发现Llama-3-8B-Instruct的表现优于GPT-4o,表明模型设置对学习效果的影响。
Nov, 2024