评估生成和判断编程反馈的语言模型
本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示,对比评估了5种Code LLM模型的性能,结果表明这种评测标准是更好的模型性能判别标准。同时,研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生,这些发现对于使用Code LLMs进行教学具有影响。
Jun, 2023
本文探讨了在编程教育中使用大型语言模型(LLMs)的机会和威胁,研究表明LLMs有助于识别学生代码中的问题,但不可靠,需要在未来的研究中进一步挖掘。
Jun, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5和GPT-4在解决入门级编程任务中的表现,并根据表现得出了利用LLMs进行教学场景和评估格式的暗示。研究选取了来自免费网站CodingBat的72个针对初学者的Python任务,使用完整任务描述作为LLMs的输入,通过CodingBat的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为94.4%至95.8%,同时文本解释和程序代码的可用性可靠,从而为将LLMs纳入编程教育和评估中打开了新的途径。
Aug, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
我们探讨了在初级编程课程中应用大型语言模型(LLM)生成代码追踪问题的方法,通过设计指导GPT4生成基于代码片段和描述的代码追踪问题的有针对性提示,并建立了一套人工评价指标,用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了LLMs在生成多样化代码追踪问题方面的能力和潜力,并提供了一个独特的人工和LLM生成的追踪问题数据集,为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于LLMs在教育环境中潜在用途的持续对话做出了贡献。
Oct, 2023
基于大型语言模型的反馈生成方法在编程作业的逻辑错误中显示出巨大潜力。本研究通过使用多级反馈的方式来解决现有方法存在的问题,并通过用户研究评估了所生成反馈的质量。
May, 2024
通过使用 GPT-4 对多个开源语言模型的反馈进行评估,本研究探讨了大型语言模型在教育领域中生成反馈的质量,并发现一些模型在性能上可以与专有的语言模型竞争,从而为其在教学环境中的负责任使用提供机会。
May, 2024
通过调查研究,本文分析了大语言模型(LLMs)在编程练习生成能力方面的状况,并提出了一个评估矩阵,帮助研究人员和教育工作者决定哪个LLM适合编程练习生成用例。此外,本文还发现多个LLM能够生成有用的编程练习,但存在着LLMs能够解决由LLMs生成的练习的难题。该论文对LLMs在教育中的整合进行了有益的讨论。
May, 2024
本研究解决了自动化程序反馈系统尚未充分探索的问题,并提出利用大型语言模型(LLMs)分析编程过程数据的新方法。研究结果表明,LLMs可以有效自动化编程过程的总结和反馈,从而推动计算教育研究和实践接近自动化的形成性反馈机制。
Nov, 2024