用大型语言模型(GPT)自动化编程作业反馈
使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈,为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量,然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量,我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术,通过对三个实际数据集进行广泛评估展示了我们技术的有效性。
Oct, 2023
本文探讨了人工智能在提供个性化代码改正和生成反馈方面的潜力,根据两个真实作业的学生提交进行了调查,结果显示 73% 的提交正确识别,并且在这些情况中,GPT-3.5 还成功生成了有效且高质量的反馈。
Oct, 2023
该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈,研究结果显示相比 GPT-3.5,GPT-4 Turbo 在输出质量上有显著的改进,可以更准确地识别学生程序输出中的错误,并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。
Mar, 2024
该研究探讨了大型语言模型(特别是 GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估,结果显示 GPT-4 生成的大部分反馈有效地解决了代码错误。然而,不正确的建议和虚构的问题导致进一步改进的需求。
Mar, 2024
本研究使用生成式预训练转换器(GPT)中的序列标注方法,利用 GPT 模型在辅导训练数据集中识别所需和不需要的赞扬组成部分以提供解释性反馈,研究表明 GPT 模型在识别特定元素方面具有潜力,能够提供对开放式回答中的期望和改进点的反馈。
May, 2024
ChatGPT 在自动化给予 Java 编程作业反馈方面的可行性进行了研究,调查结果表明学生们普遍认为 ChatGPT 反馈与 Shute 建立的形成性反馈准则相一致,他们更喜欢包含他们代码的反馈,此研究还提供了改进 ChatGPT 生成反馈的具体见解。
Dec, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
GPT-4 在生成编程代码方面表现优异,优于其他大型语言模型,具备在不同编程语言之间翻译和学习的强大能力,同时具备与人类程序员相当的代码生成效率,表明其在编程代码生成和软件开发中具备可靠的助手潜力。
Mar, 2024
近期的研究将大型语言模型(LLMs)应用于多样的教育环境,包括提供自适应编程提示,一种专注于帮助学生在问题解决中前进的反馈类型。本研究通过使用 LLM Hint Factory 的思辨法研究,对 12 名初学者进行了研究,该系统提供四个级别的提示,从一般的自然语言引导到具体的代码辅助,格式和粒度不同。我们发现,仅凭高级自然语言提示可能无济于事,甚至具有误导性,尤其是在处理下一步或与语法相关的帮助请求时。添加低级的提示,如带有行内注释的代码示例,可以更好地支持学生。这些发现为定制内容、格式和粒度级别的帮助响应,以准确识别和满足学生的学习需求,开辟了未来的研究方向。
Apr, 2024