MARIO Eval: 用数学评估你的数学 LLM 工具包
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
大型语言模型在自然语言理解任务中取得了显著的进展,但要实现真正的人工智能通用智能还存在差距,特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集,该数据集具有使用 Python 代码解释器的能力,解决了这一挑战。此外,我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议,在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域,并且我们已经公开了模型检查点并将数据集公开可用,希望这将促进社区内的进一步研究和发展。
Jan, 2024
本研究通过分析 GPT-4 在回答数学问题中的表现,探讨了大型语言模型在复杂的数学问题解决中的局限性和不足,为未来人工智能驱动的数学推理的研究和进展奠定了基础。
Mar, 2024
最近的大型语言模型(LLMs)和多模态模型(MMs)在问题解决方面展示了卓越的能力,但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白,我们引入了 GeoEval 基准测试,它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估,发现 WizardMath 模型表现出色,在主子集上的准确率达到 55.67%,但在困难子集上只有 6.00%的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外,我们的研究结果表明,GPT 系列模型在它们重新表述的问题上表现更有效,这为增强模型能力提供了有希望的方法。
Feb, 2024
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识,本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训,发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下,某些指令调整导致类似的性能变化,无论培训数据不同,暗示了跨不同技能的领域理解缺乏。
May, 2024
通过自我评审流程,大型语言模型(LLMs)能够在保持语言能力的同时提升数学问题解决能力,从而有效增强 LLMs 在实际应用中的性能。
Apr, 2024
评估医学中的大型语言模型 (LLMs) 时,与计算和基于逻辑的推理相反,当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而,在现实世界的情况下,医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此,我们提出了 MedCalc-Bench,这是一个首个针对评估 LLMs 在医学计算能力方面的数据集。MedCalc-Bench 包含了来自 55 个不同医学计算任务的 1000 多个手动审核实例的评估集。每个 MedCalc-Bench 实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示 LLMs 在这个领域具有潜力,但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务,或错误地执行计算的算术操作。我们希望我们的研究能够突出 LLMs 在医学环境中的定量知识和推理差距,促进未来改进 LLMs 以用于各种临床计算任务。
Jun, 2024
该论文介绍了 DocMath-Eval,这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现,并采用不同的提示策略来全面评估现有 LLMs 在 DocMath-Eval 中的能力和局限性。我们发现,尽管目前表现最好的系统(即 GPT-4)在短文本环境下可以很好地处理简单问题,如计算金融指标的增长率,但在较长上下文中的更复杂问题上明显落后于人类专家。我们相信 DocMath-Eval 可以作为一个有价值的基准测试,用于评估 LLMs 在专家领域中解决具有挑战性的数值推理问题的能力。我们将在此 https URL 上发布该基准测试和代码。
Nov, 2023