ChatGPT 的数学能力

Jan, 2023

Mathematical Capabilities of ChatGPT

Simon Frieder, Luca Pinchetti, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz...

TL;DR本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比，发现其数学能力显著低于普通数学研究生，并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。

Abstract

We investigate the mathematical capabilities of chatgpt by testing it on publicly available datasets, as well as hand-crafted ones, and measuring its performance against other models trained on a mathematical cor

chatgpt mathematical capabilities ghosts dataset language models graduate-level mathematics

发现论文，激发创造

跨语言评估 ChatGPT 的数学能力

本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力，并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性，并提供了当前的限制。

May, 2024

ChatGPT 作为数学问题提问者？对 ChatGPT 在生成大学预备数学问题方面的评估

ChatGPT 分析了其在生成高中数学问题方面的潜力，通过对各类课程的数学问题进行评估和分析，发现大语言模型在数学问题生成方面具有潜力。

Dec, 2023

ChatGPT 在数学推理和问题解决中的有效性研究：来自越南国家高中毕业考试的证据

该研究对 ChatGPT 在越南高中毕业考试的数学题目中的表现进行了全面的分析，探讨了无法正确回答问题的挑战。

Jun, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

探讨 ChatGPT 在科学与工程问题解决中的潜力和问题

本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力，发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5％，而在未给定全部必要数据的实际问题上的准确率下降至 8.3％。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示，并为人工智能的优势和局限性提供了见解，对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。

Oct, 2023

ChatGPT 在州医学许可考试方面表现出色，但在基础线性代数方面表现不一

本文探讨了 ChatGPT 在数学教育中的能力，尤其是在基本线性代数的教学方面。虽然有时 ChatGPT 可以提供准确且有动机的答案，但显然它更多地依赖于视觉模式而非真正的理解，而且作为学生的老师是否合适也值得考虑。

Jun, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 是专家们的杰出工具

本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力，重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险，而作者提出了使用流程建议，对输出进行独立验证，并建议专家使用该工具。

Jun, 2023

ChatGPT 自然语言处理在数学问题上的独立评估

本文针对商用大型语言模型 ChatGPT 在数学问题（Math Word Problems，MWP）中的性能表现进行了研究，并首次发现，ChatGPT 的性能表现会因要求展示解题过程而出现明显差异，而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率，其中特别注意到加减法操作次数与失败率呈线性关系，同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集，用于支持更多的研究。

Feb, 2023

挑战性数学问题求解的 GPT-4 实证研究

本文探索使用 GPT-4 解决更复杂的数学问题，并评估了各种使用 GPT-4 的方法，包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估，结果表明所提出的对话式方法具有优势。

Jun, 2023