评估 ChatGPT 和 GPT-4 在视觉编程中的应用

Jul, 2023

评估 ChatGPT 和 GPT-4 在视觉编程中的应用

Evaluating ChatGPT and GPT-4 for Visual Programming

Adish Singla

TL;DR生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力，但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现，并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差，为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。

Abstract

generative ai and large language models have the potential to drastically improve the landscape of computing education by automatically ge

generative ai large language models computing education visual programming performance assessment

发现论文，激发创造

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

评估 ChatGPT 在自动代码生成中的优势和局限性

ChatGPT 是一种显著的大型语言模型，通过与人类程序员进行比较，本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集，共计 131 个代码生成提示，ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估，重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势，并展示了在数据分析任务（93.1% 准确度）中的强项，但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外，机器学习模型可以有效地区分 ChatGPT 和人类代码，准确率高达 88%，表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性，为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。

Nov, 2023

ChatGPT: 最终的编程助手吗？—— 它有多远？

我们通过实证分析了 ChatGPT 在无人辅助编程助手方面的潜力，并强调了其相对程序生成、程序修复、代码摘要方面的表现，并对其在常见编程问题上的表现进行了评估，这证明 ChatGPT 有效地处理典型的编程挑战，但我们也发现，综合的描述可能会限制 ChatGPT 的关注点并阻碍其利用其广泛的知识进行问题解决。

Apr, 2023

巨型语言模型（GPT-4）的进步：通过高等教育编程课程的考核不再成为难题

该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果，这表明自然语言处理技术在编程教育类中有很大的潜力，并且给程序设计教育提出了新的问题。

Jun, 2023

自动化人类导师式编程反馈：利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示

使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈，为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量，然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量，我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术，通过对三个实际数据集进行广泛评估展示了我们技术的有效性。

Oct, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

评估 C++、Fortran、Go、Java、Julia、Matlab、Python、R 和 Rust 的 AI 生成代码

通过评估 ChatGPT 3.5 和 4 版本在生成各种编程语言代码方面的能力，验证了这些 AI 模型用于生成科学程序的效力。通过要求 ChatGPT 生成三个不同的代码：简单的数值积分、共轭梯度求解器和并行一维模板热方程求解器来达到我们的目标。我们的分析重点是代码的编译、运行时性能和准确性。虽然 ChatGPT 的两个版本都成功创建了可以编译和运行的代码（在某种程度上需要帮助），但 AI 在使用某些语言时会更容易（可能是由于使用的训练数据集的规模）。甚至对于我们选择的这个简单示例来说，平行代码也很难由 AI 正确生成。

May, 2024