LLM 能掌握数学吗?研究大型语言模型在数学 Stack Exchange 上
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势,进一步探索其合作潜力。
Jun, 2024
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了 1,958 个关于各种数学学科的问题,并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型,我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54%的准确度。有趣的是,即使在使用思维链提示的情况下,我们也几乎没有观察到明显的改进。此外,当问题在没有可选项的情况下提供时,大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明,即使是在相同的数学领域中的紧密相关子主题之间,也存在显着差异。为了找出大语言模型性能背后的原因,当有可选项时,我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是,在模型提供正确答案的情况下,只有 53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。
Jun, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
本文探索使用 GPT-4 解决更复杂的数学问题,并评估了各种使用 GPT-4 的方法,包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估,结果表明所提出的对话式方法具有优势。
Jun, 2023
该研究通过扰动问题和生成数据集,评估大型语言模型在数学推理任务中的能力,结果表明现有模型在扰动问题上性能显著下降,缺乏深度推理能力。
Jan, 2024
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
大型语言模型(LLMs)如 ChatGPT 因其通用的语言理解能力而备受关注,尤其是它们生成高质量文本或计算机代码的能力。在本文中,我们讨论它们在何种程度上可以辅助数学专家,并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究,我们概述了最佳实践和潜在问题,并报告了语言模型的数学能力。最后,我们揭示了 LLMs 改变数学家工作方式的潜力。
Dec, 2023
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的 LLM 也无法完全以文本方式解决这些问题,例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如 GPT4 的表现提升到了 11.7%。在这项工作中,我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将 GPT-4 的表现提升到了 57% 以上。
Jun, 2024
本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。
Mar, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024