语言模型的物理学:第二部分 2.1,初等数学与隐藏推理过程
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
我们提出了一种基于数学误解的大型语言模型(LLM)数学推理能力的新评估方法。我们通过模拟LLMs作为初学者和专家导师,旨在识别由于特定误解导致的错误答案,并识别一个错误答案背后的误解。与传统基于LLMs的数学评估侧重于正确回答数学问题不同,我们的方法受到教育学习科学原则的启发。我们要求LLMs明确地模仿初学者通过基于不完整知识的特定错误方式回答问题,并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验,我们发现,尽管LLMs可以轻松正确回答这些问题,但它们难以识别:1)与特定不完整知识(误解)相对应的错误答案;2)解释特定错误答案的误解。我们的研究指出了增强LLMs数学推理能力的新机会,尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。
Oct, 2023
运用大型语言模型(LLMs)作为认知模型的兴趣日益增加,本研究通过研究LLMs在解决算术问题时与儿童的认知偏差,得出结论:LLMs在文本理解和解决方案规划步骤中表现出类似人类的偏差,但在解决方案执行过程中没有类似的偏差。
Jan, 2024
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
本文研究了语言模型在数学能力方面的评估,特别是其识别数学技能和概念的能力。研究贡献了两个数据集,揭示了语言模型在关联数学题与标准时的不足,以及生成不完全符合标准的问题。本研究的关键发现是,语言模型在映射问题与教育标准时表现出显著的差距,对今后教育技术的发展具有重要影响。
Aug, 2024
本研究探讨了语言模型在数学能力方面的评估缺口,提出了通过教育标准来分析语言模型理解数学技能的能力。我们开发了两个数据集,发现语言模型在标记和验证与问题相关的标准时存在困难,并且生成的问题往往与标准不完全一致。这项研究为理解语言模型解决某些数学问题的难易程度提供了新的视角。
Aug, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024