大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

Oct, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

The potential of large language models for improving probability learning: A study on ChatGPT3.5 and first-year computer engineering students

PDF

Angel Udias, Antonio Alonso-Ayuso, Ignacio Sanchez, Sonia Hernandez, Maria Eugenia Castellanos...

TL;DR我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Abstract

In this paper, we assess the efficacy of chatgpt (version Feb 2023), a large-scale language model, in solving probability problems typically presented in →

chatgpt probability problems introductory computer engineering exams performance limitations

发现论文，激发创造

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

探讨 ChatGPT 在科学与工程问题解决中的潜力和问题

本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力，发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5％，而在未给定全部必要数据的实际问题上的准确率下降至 8.3％。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示，并为人工智能的优势和局限性提供了见解，对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。

Oct, 2023

测验计算机科学本科生在 ChatGPT 使用中：“不像 Jarvis，但非常接近！

本研究采用了学生至上的方法，通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT，这是由 OpenAI 发布的一种流行的大型语言模型。研究发现，大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极，但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战，这些发现具有更广泛的意义，并可适用于其他大型语言模型及其在计算机教育中的作用。

Nov, 2023

分析使用 ChatGPT 解决入门编程任务的初学者程序员的聊天协议

通过分析大型语言模型（LLMs）与入门级编程学生的交互，我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况，这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。

May, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

ChatGPT 对计算机科学本科生和教师究竟是祝福还是诅咒？

本文采用定量方法，展示 ChatGPT 在回答涉及本科计算机科学课程相关主题的不同类型的问题时高度不可靠，揭示学生盲目依赖 ChatGPT 完成作业和考试可能面临自我破坏。同时提出对学生和教师的建设性建议。

Apr, 2023