ChatGPT 自然语言处理在数学问题上的独立评估

Feb, 2023

ChatGPT 自然语言处理在数学问题上的独立评估

An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP)

Paulo Shakarian, Abhinav Koyyalamudi, Noel Ngu, Lakshmivihari Mareedu

TL;DR本文针对商用大型语言模型 ChatGPT 在数学问题（Math Word Problems，MWP）中的性能表现进行了研究，并首次发现，ChatGPT 的性能表现会因要求展示解题过程而出现明显差异，而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率，其中特别注意到加减法操作次数与失败率呈线性关系，同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集，用于支持更多的研究。

Abstract

We study the performance of a commercially available large language model (LLM) known as ChatGPT on math word problems (MWPs) from the

large language model math word problems performance dataset machine learning

发现论文，激发创造

挑战性数学问题求解的 GPT-4 实证研究

本文探索使用 GPT-4 解决更复杂的数学问题，并评估了各种使用 GPT-4 的方法，包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估，结果表明所提出的对话式方法具有优势。

Jun, 2023

ChatGPT 的数学能力

本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比，发现其数学能力显著低于普通数学研究生，并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。

Jan, 2023

跨语言评估 ChatGPT 的数学能力

本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力，并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性，并提供了当前的限制。

May, 2024

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 作为数学问题提问者？对 ChatGPT 在生成大学预备数学问题方面的评估

ChatGPT 分析了其在生成高中数学问题方面的潜力，通过对各类课程的数学问题进行评估和分析，发现大语言模型在数学问题生成方面具有潜力。

Dec, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

使用预训练多语言语言模型研究数学问题

本文探讨了跨语言和多语言下的数学应用问题，使用预训练的多语言模型构建模型，并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况，表明将模型迁移到不同的语言上可能会导致性能下降，但如果问题类型存在于源语言和目标语言中，则其性能可以得到完善提升。

May, 2021

GPT 能够在没有计算器的情况下解决数学问题

大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算，并且能够在无数据泄露情况下实现几乎 100% 的准确度，超越了 GPT-4。此外，我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调，开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。

Sep, 2023