关于小学算术的大型语言模型性能的仔细检查
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。
May, 2023
通过使用小规模模型并结合高质量的数据集,我们的研究探索了如何提升小型语言模型在解决小学数学问题时的数学推理能力,并通过引入 TinyGSM 数据集和验证器的方法,实现了在 GSM8K 基准测试中超过 80% 的准确率,同时在模型规模上远远超过现有模型。
Dec, 2023
大型语言模型在自然语言理解任务中取得了显著的进展,但要实现真正的人工智能通用智能还存在差距,特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集,该数据集具有使用Python代码解释器的能力,解决了这一挑战。此外,我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议,在GSM8K和MATH数据集上显著提升了7B参数LLM性能。我们致力于推进LLMs中的数学推理领域,并且我们已经公开了模型检查点并将数据集公开可用,希望这将促进社区内的进一步研究和发展。
Jan, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的LLM模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳,而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。
Jun, 2024
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了1,958个关于各种数学学科的问题,并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型,我们发现最先进的模型GPT-4在多项选择场景下仅达到54%的准确度。有趣的是,即使在使用思维链提示的情况下,我们也几乎没有观察到明显的改进。此外,当问题在没有可选项的情况下提供时,大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明,即使是在相同的数学领域中的紧密相关子主题之间,也存在显着差异。为了找出大语言模型性能背后的原因,当有可选项时,我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是,在模型提供正确答案的情况下,只有53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。
Jun, 2024
Mathador-LM是用于评估大型语言模型在数学推理上的新基准,结合了规则解释、规划和问题求解。该基准受Mathador游戏启发,其目标是使用给定的一组基本数字和简单的规则,通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能,并动态生成基准实例,以符合目标难度级别。因此,我们的基准缓解了测试集泄露到训练数据中的问题,这是经常破坏流行基准的一个问题。此外,我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明,现代模型在Mathador-LM上面临困难,得分显著低于平均5年级学生,这与它们在流行数学推理基准上的强大表现形成鲜明对比。
Jun, 2024
本研究解决了语言模型在数学推理问题上的能力与过程缺口,通过一系列受控实验探讨了语言模型是否真正具备推理技能,及其思维过程的隐秘机制。研究发现,语言模型在处理数学问题时展现出的推理过程和错误来源,为更好的理解大规模语言模型提供了重要的见解。
Jul, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究针对大型语言模型(LLMs)在数学推理能力上的不足,通过引入GSM-Symbolic基准,解决了现有评估的局限性,提供了更可靠的度量指标。研究发现,尽管LLMs在GSM8K基准测试上表现改进,但其真实的数学推理能力仍然不佳,特别是在问题中添加额外条款时性能急剧下降。这一发现为理解LLMs的能力和限制提供了新的视角。
Oct, 2024