大型语言模型生成程序代码的系统评估
该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈,研究结果显示相比 GPT-3.5,GPT-4 Turbo 在输出质量上有显著的改进,可以更准确地识别学生程序输出中的错误,并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。
Mar, 2024
本文研究了 GPT3.5 和 GPT4 作为编码助手的性能,测试结果表明 GPT4 具有卓越的性能,可以提高程序员的生产力并重组基于这些新工具的软件开发流程。
Sep, 2023
该研究探讨了大型语言模型(特别是 GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估,结果显示 GPT-4 生成的大部分反馈有效地解决了代码错误。然而,不正确的建议和虚构的问题导致进一步改进的需求。
Mar, 2024
GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性,证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。
Feb, 2024
该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
本研究旨在通过对 GPT-4 和 GLM-4 的比较分析,探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略,我们发现最简单和直接的提示策略可以产生最佳的代码生成结果。此外,添加类似于 CoT 的初步确认步骤将进一步提高成功率。结果显示,在普通用户中,虽然 GPT-4 略胜一筹,但差异微乎其微。在我们简化的评估模型中,与传统的编码规范相比,代码生成效率惊人地提高了 30 至 100 倍。我们的 GenAI 编码讲习班展示了本研究中开发的提示方法的效果和可访问性。我们观察到 GenAI 辅助编码将引发编程领域的一次范式转移,这需要开发人员承担围绕监督和指导 GenAI 的新角色,并更加专注于设定高层目标并积极参与创新。
Feb, 2024
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异,而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023