大型语言模型在数学推理方面的进展与挑战
近年来,在数学领域中,利用语言模型(LMs)取得了显著进展,本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类,揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。
Dec, 2023
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战,尽管在类似领域取得了很多成功。LLMs 在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于 LLMs 的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了 LLMs 在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
大型语言模型(LLMs)如 ChatGPT 因其通用的语言理解能力而备受关注,尤其是它们生成高质量文本或计算机代码的能力。在本文中,我们讨论它们在何种程度上可以辅助数学专家,并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究,我们概述了最佳实践和潜在问题,并报告了语言模型的数学能力。最后,我们揭示了 LLMs 改变数学家工作方式的潜力。
Dec, 2023
通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力,我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析,结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强,但缺乏解答针对年幼儿童设计的问题的基础知识,而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。
Jun, 2024
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题,它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误,并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性,并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。
May, 2024