Mathify: 在数学问题求解任务上评估大型语言模型
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
本研究通过分析 GPT-4 在回答数学问题中的表现,探讨了大型语言模型在复杂的数学问题解决中的局限性和不足,为未来人工智能驱动的数学推理的研究和进展奠定了基础。
Mar, 2024
该研究探讨了大型语言模型(LLMs)在数学问题求解方面的能力,并使用新开发的 “MathOdyssey” 数据集进行测试。研究结果显示,尽管 LLMs 在常规和中等难度任务上表现良好,但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战,因此需要进一步研究来提高 LLMs 的数学推理能力。
Jun, 2024
近年来,在数学领域中,利用语言模型(LMs)取得了显著进展,本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类,揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。
Dec, 2023
通过独特的基准数据集 NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对 LLMs 性能有时造成损害,尤其是较小的模型 LLAMA-2(13 亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击,证明了 LLMs 的数学解决能力容易受到攻击,特别是在复杂数学问题方面的鲁棒性较差。
Sep, 2023
大语言模型(LLMs)在解决数学问题等各种推理任务中得到了探索。我们引入了一个全面的数学评估工具包,不仅利用 python 计算代数系统(CAS)进行数值精度评估,还集成了一个可选的大语言模型(LLM),以验证工具包的有效性。
Apr, 2024