元数学:为大型语言模型建立自己的数学问题
LLaMA-2 7B 模型通过简单的方法扩展数据样本,证明了其出色的数学能力及可靠性,适用于 GSM8K 和 MATH 基准测试,并提供了关于不同推理复杂性和错误类型的扩展行为的见解。
Mar, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
MathGenie 是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从 7B 到 70B 范围的预训练模型,形成了 MathGenieLM 系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是 MathGenieLM-InternLM2 在 GSM8K 上达到了 87.7%的准确率,在 MATH 上达到了 55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如 GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如 LLaMA-2 和 Mistral)进行 Fine-tuning,MathScale-7B 在 Math Word Problems 基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
本研究通过分析 GPT-4 在回答数学问题中的表现,探讨了大型语言模型在复杂的数学问题解决中的局限性和不足,为未来人工智能驱动的数学推理的研究和进展奠定了基础。
Mar, 2024
KwaiYiiMath enhances mathematical reasoning abilities by applying Supervised Fine-Tuning and Reinforced Learning from Human Feedback on English and Chinese mathematical tasks, achieving state-of-the-art performance on GSM8k, CMath, and a small-scale Chinese primary school mathematics test set named KMath.
Oct, 2023
大型语言模型在自然语言理解任务中取得了显著的进展,但要实现真正的人工智能通用智能还存在差距,特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集,该数据集具有使用 Python 代码解释器的能力,解决了这一挑战。此外,我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议,在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域,并且我们已经公开了模型检查点并将数据集公开可用,希望这将促进社区内的进一步研究和发展。
Jan, 2024
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
该研究通过扰动问题和生成数据集,评估大型语言模型在数学推理任务中的能力,结果表明现有模型在扰动问题上性能显著下降,缺乏深度推理能力。
Jan, 2024