大型语言模型导师的学生推理错误逐步验证和修正
介绍一个8.5K高质量的语言多样的小学数学问题数据集GSM8K,表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能,提出使用verifiers验证模型的正确性并通过排名选择最优解来提高性能。
Oct, 2021
本文介绍了一种用于收集大型语言模型生成对话的框架,用来收集MathDial数据集,这个数据集由约1.5k个多步骤数学词问题的辅导对话组成,并展示了该数据集具有丰富的教学特性,可以用于调整语言模型以成为更有效的辅导员,并强调了需要解决研究共同体的挑战。
May, 2023
我们提出了一种基于数学误解的大型语言模型(LLM)数学推理能力的新评估方法。我们通过模拟LLMs作为初学者和专家导师,旨在识别由于特定误解导致的错误答案,并识别一个错误答案背后的误解。与传统基于LLMs的数学评估侧重于正确回答数学问题不同,我们的方法受到教育学习科学原则的启发。我们要求LLMs明确地模仿初学者通过基于不完整知识的特定错误方式回答问题,并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验,我们发现,尽管LLMs可以轻松正确回答这些问题,但它们难以识别:1)与特定不完整知识(误解)相对应的错误答案;2)解释特定错误答案的误解。我们的研究指出了增强LLMs数学推理能力的新机会,尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。
Oct, 2023
我们探索了大型语言模型在辅导教师补救学生错误中的潜力,并通过评估表明,尽管模型不断改进了原始辅导响应,但仍无法达到经验丰富的数学教师的水平。这项工作揭示了当前大型语言模型在提供规模化高质量学习体验方面的潜力和局限性。
Oct, 2023
该研究调查两个生成模型在评估真实教师在应对学生数学错误方面的表现能力,发现 GPT-3.5-Turbo 和 GPT-4 都能够熟练评估与学生犯错有关的标准,但在识别学生错误的情况下存在局限性。未来的研究将致力于通过评估更多对话数据集和评估学习转化来提升泛化能力,进一步分析教师在真实场景中应对学生数学错误的表现。
Jan, 2024
智能辅导系统中的自动反馈组件通常采用基于模板的方法,但在开放式数学问题中存在大量不同的错误类型。本研究使用大型语言模型来生成开放式数学问题的反馈,发现尽管能够学习反馈的格式,但无法完全理解学生的数学错误。
May, 2024
我们提出了MathCAMPS方法,用于合成高质量的数学问题,并通过LLMs将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024
本研究针对现有人工智能辅导聊天机器人的学生行为建模缺口,提出了在辅导-学生对话中进行知识追踪的首个尝试。通过使用大型语言模型的提示方法,我们能够识别对话中的知识组件并诊断学生的回应正确性,研究结果表明,新的LLMKT方法在对话中预测学生回应的正确性方面显著优于现有知识追踪方法。
Sep, 2024