用大型语言模型(GPT)自动化编程作业反馈
作者分析了三种不同的GPT模型(生成式预训练转换模型)在回答包括程序代码片段的多选题方面的有效性,发现包含代码片段的题目更加困难,这个发现可以帮助编程教育工作者适应他们的教学方法和评估,为学习者提供有意义的辅助。
Mar, 2023
本文评估了GPT在大学的Python编程课程中通过评估的能力,并研究了GPT模型如何利用自动评估程序提供的反馈。研究发现,这些模型都不能完全通过Python编程课程中的各种评估,但简单应用它们可以使学习者在入门和中级课程中获得非常好的分数。然而,这些模型存在某些局限性,如对需要复杂推理步骤的练习处理能力较差。因此,本文建议教师改变评估方式,使GPT变成学习者的有价值的辅助工具,而不是全自动解决方案。
Mar, 2023
该研究对基于GPT-4 模型的Python编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
使用生成式AI模型和大规模语言模型来生成编程教育中的个性化反馈,为学生提供编程提示以帮助他们解决程序中的错误。通过使用GPT-4作为“导师”模型和符号信息来提高生成质量,然后通过使用GPT-3.5作为“学生”模型来验证提示质量,我们开发了一种名为GPT4Hints-GPT3.5Val的新技术,通过对三个实际数据集进行广泛评估展示了我们技术的有效性。
Oct, 2023
本文探讨了人工智能在提供个性化代码改正和生成反馈方面的潜力,根据两个真实作业的学生提交进行了调查,结果显示73%的提交正确识别,并且在这些情况中,GPT-3.5还成功生成了有效且高质量的反馈。
Oct, 2023
ChatGPT在自动化给予Java编程作业反馈方面的可行性进行了研究,调查结果表明学生们普遍认为ChatGPT反馈与Shute建立的形成性反馈准则相一致,他们更喜欢包含他们代码的反馈,此研究还提供了改进ChatGPT生成反馈的具体见解。
Dec, 2023
该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈,研究结果显示相比 GPT-3.5,GPT-4 Turbo 在输出质量上有显著的改进,可以更准确地识别学生程序输出中的错误,并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。
Mar, 2024
该研究探讨了大型语言模型(特别是GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用GPT-4设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了51名学生的评估,结果显示GPT-4生成的大部分反馈有效地解决了代码错误。然而,不正确的建议和虚构的问题导致进一步改进的需求。
Mar, 2024
通过使用GPT-4生成代码评审,提供学习者友好的代码评审并减少AI辅助作弊的风险,这项研究旨在应对对编程语言教育的不断增长的需求和日益庞大的班级规模对即时且个性化反馈的迫切需求。
Jun, 2024