超越模式匹配学习？对 LLM 中的数学理解进行评估

May, 2024

超越模式匹配学习？对 LLM 中的数学理解进行评估

Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs

Siyuan Guo, Aniket Didolkar, Nan Rosemary Ke, Anirudh Goyal, Ferenc Huszár...

TL;DR通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识，本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训，发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下，某些指令调整导致类似的性能变化，无论培训数据不同，暗示了跨不同技能的领域理解缺乏。

Abstract

We are beginning to see progress in language model assisted scientific discovery. Motivated by the use of LLMs as a general scientific assistant, this paper assesses the domain knowledge of LLMs through its understanding of different →

language model scientific discovery mathematical skills neural tangent kernel domain understanding

发现论文，激发创造

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

用 LLMs 自动标记数学问题的知识概念

基于大语言模型的知识概念标记在数学问题的自动标记任务中显示出潜力，由于其零 / 少样本学习能力，适用于教育场景中收集大规模、专业标记数据集所面临的挑战。

Mar, 2024

基于灵活演示检索器的数学问题知识标记系统

知识标记对于当代智能教育应用具有关键作用，本文探索采用大型语言模型（LLMs）自动化该任务，展示了 LLMs 在数学问题知识标记任务上零次和少次检测结果的强大性能，并通过提出基于强化学习的示范检索器，成功利用不同规模的 LLMs 实现更优异的性能结果同时保持上下文演示使用的高效性。

Jun, 2024

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024

KnowledgeMath: 知识密集型金融领域数学问题求解

KnowledgeMath 是一个新颖的基准，旨在评估 LLMs 在应用财务知识解决复杂数学问题方面的能力。该研究包含 1,259 个问题，结合了文本和表格内容，需要大学水平的财务领域知识进行有效解决。我们提供了以 Python 程序格式的专家注释详细解决方案，为 LLM 评估提供高质量的基准。与以往研究相比，我们评估了 14 个具有不同提示策略的 LLMs 范围。最佳系统（即 Program-of-Thoughts 的 GPT-4）仅达到 45.4% 的准确率，仍有很大的改进空间。我们相信 KnowledgeMath 可以促进未来关于领域特定知识检索和增强到数学问题解决过程中的研究。我们将在此 https URL 发布基准和代码。

Nov, 2023

MARIO Eval: 用数学评估你的数学 LLM 工具包

大语言模型（LLMs）在解决数学问题等各种推理任务中得到了探索。我们引入了一个全面的数学评估工具包，不仅利用 python 计算代数系统（CAS）进行数值精度评估，还集成了一个可选的大语言模型（LLM），以验证工具包的有效性。

Apr, 2024

基于大型语言模型的学习者表现建模

本文探讨了预训练大型语言模型（LLMs）的能力，以及它们在知识跟踪、智能辅导系统领域的应用，研究了两种使用 LLMs 进行知识跟踪的方法，并对其在实际数据集上的性能进行了评估，结果表明 LLMs 能够模拟复杂的学习轨迹，为将 LLMs 应用于教育环境开辟了新的途径。

Feb, 2024

LLM 过程：基于自然语言的数值预测分布

构建能够处理数字数据并根据自然语言文本进行概率预测的回归模型，以整合先前的知识和信念，提高预测性能并给出定量结构。

May, 2024

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

数学语言模型综述

近年来，在数学领域中，利用语言模型（LMs）取得了显著进展，本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类，揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。

Dec, 2023