大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

Mar, 2024

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course

Will Yeadon, Alex Peach, Craig P. Testrow

TL;DRChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Abstract

This study evaluates the performance of chatgpt variants, GPT-3.5 and GPT-4, both with and without prompt engineering, against solely student work and a mixed category containing both student and GPT-4 contributi

chatgpt variants performance evaluation prompt engineering physics coding assignments ai-generated work

发现论文，激发创造

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

人类仍优于 ChatGPT：以 IEEEXtreme 竞赛为例

本篇论文通过 IEEExtreme 挑战赛的实验数据分析，来证明 ChatGPT 在程序设计中的实现能力与人类相比存在劣势。同时，论文提出了 AI 语言模型的局限性与可能的改进方向。

May, 2023

GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析

研究发现，提供具体及时的反馈可以提高人类导师的表现，但由于评估导师表现的时间消耗性质，给出具体及时的反馈存在挑战，然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。这项工作在导师 - 学生模式下评估了由 GPT-4 生成的 30 次对话，并将两种不同的提示方法进行比较：零 - shot 思维链和少 - shot 思维链，以识别基于五个标准的有效赞扬的具体组成部分，并通过与人类评分员的结果进行比较来评估 GPT-4 是否能够准确识别每个赞扬标准。研究发现，零 - shot 和少 - shot 思维链方法产生了相似的结果。 GPT-4 在识别导师提供具体和即时赞扬的情况下表现良好，但在识别导师提供真诚赞扬的能力方面表现不佳，尤其是在没有提供真诚导师赞扬语句的零 - shot 提示场景中。未来的研究将着重于增强提示工程，开发更普遍的导师评分表，并使用实际的导师对话来进行评估。

Jul, 2023

自动化人类导师式编程反馈：利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示

使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈，为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量，然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量，我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术，通过对三个实际数据集进行广泛评估展示了我们技术的有效性。

Oct, 2023

人们在图灵测试中无法区分 GPT-4 与人类

GPT-4 在随机和受控的图灵测试中被评定为人类 54％的时间，它超过了 ELIZA（22％），但落后于实际人类（67％）。该研究表明了人工系统通过交互式图灵测试的第一个有力实证，并提出了当前人工智能系统可能未被察觉的欺骗行为，因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示，风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。

May, 2024

使用 ChatGPT3 作为学生论文写作辅助工具：让您的论文变得更好

探究使用 ChatGPT-3 作为写作辅助工具与否对学生的论文写作表现的影响，结果表明，在大多数参数下，控制组优于实验组。

Feb, 2023

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

AI 增强的编程练习自动修正：GPT-3.5 的有效性如何？

本文探讨了人工智能在提供个性化代码改正和生成反馈方面的潜力，根据两个真实作业的学生提交进行了调查，结果显示 73% 的提交正确识别，并且在这些情况中，GPT-3.5 还成功生成了有效且高质量的反馈。

Oct, 2023

推进 GenAI 辅助程序编写 ——GPT-4 和 GLM-4 的提示效率与代码质量比较研究

本研究旨在通过对 GPT-4 和 GLM-4 的比较分析，探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略，我们发现最简单和直接的提示策略可以产生最佳的代码生成结果。此外，添加类似于 CoT 的初步确认步骤将进一步提高成功率。结果显示，在普通用户中，虽然 GPT-4 略胜一筹，但差异微乎其微。在我们简化的评估模型中，与传统的编码规范相比，代码生成效率惊人地提高了 30 至 100 倍。我们的 GenAI 编码讲习班展示了本研究中开发的提示方法的效果和可访问性。我们观察到 GenAI 辅助编码将引发编程领域的一次范式转移，这需要开发人员承担围绕监督和指导 GenAI 的新角色，并更加专注于设定高层目标并积极参与创新。

Feb, 2024