挑战性数学问题求解的 GPT-4 实证研究
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本研究通过分析 GPT-4 在回答数学问题中的表现,探讨了大型语言模型在复杂的数学问题解决中的局限性和不足,为未来人工智能驱动的数学推理的研究和进展奠定了基础。
Mar, 2024
本文提出一种利用大型语言模型(LLMs)提炼数学单词问题求解能力并将其转化为更小、更高效的学生模型的新方法,结合教育科学原则生成针对性的练习,从而实现个性化学习。实验结果表明,我们的方法在三个不同的基准测试中比 LLMs 更准确,并且使用的参数显著更少。
May, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。
Mar, 2023
GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性,证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。
Feb, 2024
本文对 ChatGPT 和 GPT-4 进行了综合调查,分析了其在各领域的潜在应用,发现 ChatGPT/GPT-4 主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
GPT-4 的研究调查发现,尽管该模型可以重复、改编和润色其之前见过的数学证明,然而它并未实际理解基本数学概念,而在形式语言中证明数学定理的任务与搜索引擎如 Google 的方法相当,而预测句子中的下一个词可能是一种错误的方法,往往会导致过度推断和最终失败。
Nov, 2023
本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法,并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。
Apr, 2023
本文针对商用大型语言模型 ChatGPT 在数学问题(Math Word Problems,MWP)中的性能表现进行了研究,并首次发现,ChatGPT 的性能表现会因要求展示解题过程而出现明显差异,而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率,其中特别注意到加减法操作次数与失败率呈线性关系,同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集,用于支持更多的研究。
Feb, 2023