ChatGPT 与人类导师生成的代数提示之间的学习增益差异

Feb, 2023

ChatGPT 与人类导师生成的代数提示之间的学习增益差异

Learning gain differences between ChatGPT and human tutor generated algebra hints

Zachary A. Pardos, Shreya Bhandari

TL;DR本文评估了 ChatGPT 的学习增益，比较其提示的功效，发现 ChatGPT 提示的质量虽比人工创作的提示部分高，但人工创作的提示所得的学习增益明显高于 ChatGPT，暗示其未来在教育领域中的应用潜力与局限性。

Abstract

large language models (LLMs), such as ChatGPT, are quickly advancing AI to the frontiers of practical consumer use and leading industries to re-evaluate how they allocate resources for content production. Authoring of open →

large language models educational resources computer tutoring system learning gain evaluation hints

发现论文，激发创造

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

分析使用 ChatGPT 解决入门编程任务的初学者程序员的聊天协议

通过分析大型语言模型（LLMs）与入门级编程学生的交互，我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况，这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。

May, 2024

测验计算机科学本科生在 ChatGPT 使用中：“不像 Jarvis，但非常接近！

本研究采用了学生至上的方法，通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT，这是由 OpenAI 发布的一种流行的大型语言模型。研究发现，大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极，但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战，这些发现具有更广泛的意义，并可适用于其他大型语言模型及其在计算机教育中的作用。

Nov, 2023

ChatEd: 高等教育中基于 ChatGPT 的增强学习体验的聊天机器人

结合 ChatGPT 和传统的基于信息检索的聊天机器人框架，提供优化的高等教育学生支持，以解决 LLMs 在教育背景下生成错误、偏见或无用答案的挑战。

Dec, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

人类与 ChatGPT 生成的对话的语言比较

研究探讨人类和 LLM 生成的对话之间的语言差异，并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计（LIWC）分析，在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色，但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异，加强了 LLM “更接近人类” 的最新发现。然而，在正面或负面情感方面，ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明，尽管对话中未明确提及情感，但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集，其中包含两个独立的聊天机器人之间的对话，这些对话旨在复制一个开放可访问的人类对话语料库，广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解，并为区分人类和 LLM 生成的文本的持续努力提供了信息，这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。

Jan, 2024

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023