通过教育课程评估语言模型的数学推理能力
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
我们提出了一种基于数学误解的大型语言模型(LLM)数学推理能力的新评估方法。我们通过模拟LLMs作为初学者和专家导师,旨在识别由于特定误解导致的错误答案,并识别一个错误答案背后的误解。与传统基于LLMs的数学评估侧重于正确回答数学问题不同,我们的方法受到教育学习科学原则的启发。我们要求LLMs明确地模仿初学者通过基于不完整知识的特定错误方式回答问题,并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验,我们发现,尽管LLMs可以轻松正确回答这些问题,但它们难以识别:1)与特定不完整知识(误解)相对应的错误答案;2)解释特定错误答案的误解。我们的研究指出了增强LLMs数学推理能力的新机会,尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。
Oct, 2023
我们提出了CHAMP数据集,该数据集包含高中数学竞赛问题,注释了概念和提示,使我们能够探索额外信息对模型性能的影响,发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案,并且大多数模型在验证这些解决方案时遇到困难。
Jan, 2024
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
我们提出了MathCAMPS方法,用于合成高质量的数学问题,并通过LLMs将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024
本研究解决了语言模型在数学推理问题上的能力与过程缺口,通过一系列受控实验探讨了语言模型是否真正具备推理技能,及其思维过程的隐秘机制。研究发现,语言模型在处理数学问题时展现出的推理过程和错误来源,为更好的理解大规模语言模型提供了重要的见解。
Jul, 2024
本文研究了语言模型在数学能力方面的评估,特别是其识别数学技能和概念的能力。研究贡献了两个数据集,揭示了语言模型在关联数学题与标准时的不足,以及生成不完全符合标准的问题。本研究的关键发现是,语言模型在映射问题与教育标准时表现出显著的差距,对今后教育技术的发展具有重要影响。
Aug, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024