运用大型语言模型进行代数错误分类
本文提出了一种基于“数理语言处理”的数据驱动框架来自动评分开放性数学问题实现的方案,采用不同聚类方法组成的三层模型对多步解决方案进行追踪和错误定位,并在真实的慕课数据上进行了测试和验证,说明它可以极大地减少大规模教育平台上所需的人力投入。
Jan, 2015
本研究在大规模数据集上探讨数据驱动的技术来解决数学应用题,发现调整良好的神经方程分类器在这些数据集上的表现优于序列到序列和自我关注等更复杂的模型。虽然完全数据驱动的模型表现出一定的潜力,但语义和世界知识是进一步发展所必需的,这是通过我们的错误分析所表明的。
Apr, 2018
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
我们探索了大型语言模型在辅导教师补救学生错误中的潜力,并通过评估表明,尽管模型不断改进了原始辅导响应,但仍无法达到经验丰富的数学教师的水平。这项工作揭示了当前大型语言模型在提供规模化高质量学习体验方面的潜力和局限性。
Oct, 2023
智能辅导系统中的自动反馈组件通常采用基于模板的方法,但在开放式数学问题中存在大量不同的错误类型。本研究使用大型语言模型来生成开放式数学问题的反馈,发现尽管能够学习反馈的格式,但无法完全理解学生的数学错误。
May, 2024
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的LLM模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳,而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。
Jun, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024
本研究解决了准确建模学生认知的问题,尤其是如何同时再现学生的误解与其正确知识。通过引入新颖的Python库MalAlgoPy,我们展示了大型语言模型(LLMs)在被调整后能够有效模拟学生在代数问题上的思维过程。此外,研究结果表明,通过合理调整训练数据中正确实例与误解实例的比例,能够开发出符合认知学生模型(CSMs)双重要求的模型,为自适应学习系统的有效性提供了新的视角。
Oct, 2024
本研究针对如何准确建模学生认知中的误解问题,提出了一种新颖的方法,通过使用大型语言模型(LLM)来模拟学生在代数中的思维过程。核心发现表明,适当调整训练数据中正确解答与误解示例的比例,可以有效构建满足学生模型的精确性和正确解题能力的认知学生模型(CSM)。
Oct, 2024