大型语言模型在编程过程数据中的机遇
本文探讨了在编程教育中使用大型语言模型(LLMs)的机会和威胁,研究表明LLMs有助于识别学生代码中的问题,但不可靠,需要在未来的研究中进一步挖掘。
Jun, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5和GPT-4在解决入门级编程任务中的表现,并根据表现得出了利用LLMs进行教学场景和评估格式的暗示。研究选取了来自免费网站CodingBat的72个针对初学者的Python任务,使用完整任务描述作为LLMs的输入,通过CodingBat的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为94.4%至95.8%,同时文本解释和程序代码的可用性可靠,从而为将LLMs纳入编程教育和评估中打开了新的途径。
Aug, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
我们探讨了在初级编程课程中应用大型语言模型(LLM)生成代码追踪问题的方法,通过设计指导GPT4生成基于代码片段和描述的代码追踪问题的有针对性提示,并建立了一套人工评价指标,用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了LLMs在生成多样化代码追踪问题方面的能力和潜力,并提供了一个独特的人工和LLM生成的追踪问题数据集,为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于LLMs在教育环境中潜在用途的持续对话做出了贡献。
Oct, 2023
通过调查研究,本文分析了大语言模型(LLMs)在编程练习生成能力方面的状况,并提出了一个评估矩阵,帮助研究人员和教育工作者决定哪个LLM适合编程练习生成用例。此外,本文还发现多个LLM能够生成有用的编程练习,但存在着LLMs能够解决由LLMs生成的练习的难题。该论文对LLMs在教育中的整合进行了有益的讨论。
May, 2024
评估预训练的大型语言模型(LLMs)在复制开发人员在代码审查评论中传统执行的任务方面的效果,通过比较它们生成的修补程序集与相同代码库的人工生成的修补程序集的历史数据,来确定LLMs的反馈的准确性、相关性和深度,从而评估它们支持开发人员应对代码审查评论的准备程度。
Apr, 2024
本研究探讨了大型语言模型(LLMs)作为代码执行器的潜力,首次系统性地分析了多个模型在代码执行中的可行性。研究提出了逐行处理代码片段的迭代指令提示(IIP)技术,有效提高了较弱模型的准确性,最高提升达18.96%。该研究为未来的自动编程和复杂任务的完成奠定了基础。
Oct, 2024
本研究针对大型语言模型(LLMs)在代码理解和生成方面的能力进行了深入探讨,填补了将 LLMs 作为代码执行器的研究空白。我们提出了一种迭代指令提示(IIP)技术,以逐行处理代码片段,显著提高了较弱模型的准确性,进而展示了 LLMs 在编程自动化和复杂任务完成中的潜在变革性影响。
Oct, 2024