使用 GPT-4 代码解释器及基于代码的自验证解决复杂数学问题

Aug, 2023

使用 GPT-4 代码解释器及基于代码的自验证解决复杂数学问题

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo...

TL;DR通过对 GPT-4 Code Interpreter 的代码使用频率引入不同约束，本文探讨了代码在增强 LLMs 推理能力方面的效果。基于这种见解，我们提出了一种新颖有效的提示方法，即基于代码的自验证（CSV），进一步提升了 GPT-4 Code Interpreter 的数学推理潜力。使用 GPT-4 Code Interpreter 和 CSV，我们在 MATH 数据集上实现了令人印象深刻的无需训练准确率（53.9％ → 84.3％）。

Abstract

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4

large language models code gpt-4 code interpreter math reasoning self-verification

发现论文，激发创造

MathCoder：深化数学推理的 LLMs 中无缝代码集成

我们提出了一种方法，通过对开源语言模型进行微调，使其能够使用代码进行建模，并推导出数学方程，从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法，称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型，一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder 模型在 MATH（45.2％）和 GSM8K（83.9％）数据集上取得了开源语言模型的最新得分，远远超过其他开源方案。值得注意的是，MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2，还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。

Oct, 2023

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

使用 Wolfram Alpha 和 Code Interpreter 插件在数学和科学问题上测试 GPT-4

该报告描述了对 GPT-4 的大规模语言模型进行的测试，使用 Wolfram Alpha 和 Code Interpreter 插件解决科学和数学领域的 105 个原创问题，表明插件显著增强了 GPT 解决这些问题的能力，然而仍然存在界面问题，在从插件获得有用答案的问题表述方面存在困难，修复这些界面问题是使 GPT 成为可靠的大学水平计算问题工具的中心挑战。

Aug, 2023

挑战性数学问题求解的 GPT-4 实证研究

本文探索使用 GPT-4 解决更复杂的数学问题，并评估了各种使用 GPT-4 的方法，包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估，结果表明所提出的对话式方法具有优势。

Jun, 2023

大型语言模型生成程序代码的系统评估

GPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Mar, 2024

大规模语言模型的准确计算的代码独白

通过创新的状态提示设计，本论文介绍了一种改进的方法，利用含有代码独白的数据集来提高智能辅导系统的计算准确性和可靠性。

Sep, 2023

大型语言模型对数学的理解：源批评和推演

GPT-4 的研究调查发现，尽管该模型可以重复、改编和润色其之前见过的数学证明，然而它并未实际理解基本数学概念，而在形式语言中证明数学定理的任务与搜索引擎如 Google 的方法相当，而预测句子中的下一个词可能是一种错误的方法，往往会导致过度推断和最终失败。

Nov, 2023

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

OpenCodeInterpreter: 将代码生成与执行和细化相整合

OpenCodeInterpreter 是一种开源代码系统，通过集成执行和人类反馈进行动态代码改进，从而弥补了开源代码生成模型与专有系统（如 GPT-4 代码解释器）之间的差距。

Feb, 2024

使用带代码解释的 ChatGPT-4 解决初级大学水平的向量微积分和电磁学问题

ChatGPT-4 with Code Interpreter showed significant improvement in solving engineering-math and electromagnetism problems compared to the performance of ChatGPT-4 without Code Interpreter, providing recommendations for instructors and students.

Sep, 2023