- 社会塑造理论的启示:本科编程课程中对大型语言模型的应用
利用大型语言模型(LLMs)进行代码生成、调试和解释的能力在大学本科编程教育领域引起了研究人员和教育者的兴趣,但决定如何以及为何在编程教育中使用 LLMs 可能不仅涉及到 LLMs 的技术能力评估,同时也会受到学生社会感知的影响。本研究使用 - Hints-In-Browser:针对编程反馈生成的语言模型基准测试
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升 - 教育计划修复基准测试
为了促进竞争方法的公平比较和标准化,该研究提出了一个新颖的教育性程序修复基准,对两个高质量的编程数据集进行整理,引入一种新的评估度量指标 rouge@k 来评估修复质量,并评估了五种最近的模型以建立基础性能。
- 将错误关系整合到提示中,以改进 LLM 对逻辑错误的分类
研究表明,使用对编程语法进行训练的 LLMs 可以有效地帮助开发人员,如生成编码问题示例或提供代码解释,此外,通过利用错误类型之间的关系,通过 LLMs 检测逻辑错误的方法比无关系描述的方法平均分类性能高约 21%,因此我们的研究可以帮助初 - 在语法树中挖掘模式以自动化学生编程练习代码审查
使用机器学习方法 ECHO,通过分析抽象语法树中的模式,自动重复使用教育代码审查中的反馈,以解决编程教育中提供人工反馈的挑战。研究结果表明,ECHO 能够准确且快速地预测适当的反馈注释,大大减少了教育环境中提供人工反馈所需的时间和工作量。
- 利用 ChatGPT 增强编程教育:基于 Python 课程的学生感知和互动案例研究
该论文探讨了 ChatGPT 在为大一学生量身定制的 Python 编程课程中的学习影响,通过分析来自调查、开放式问题和学生 - ChatGPT 对话数据的回应,旨在全面了解 ChatGPT 的实用性,同时识别学生认知中的优点和限制,揭示出 - 评估大型语言模型在编程教育中生成反馈的应用
该研究探讨了大型语言模型(特别是 GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估,结果显示 GPT-4 生成 - 评估 AI 检测器在识别 AI 生成代码中的应用:对教育的影响
研究聚焦于大型语言模型在编程教育中的应用,特别关注人工智能生成内容检测器在学术不端中的潜在漏洞,并通过生成代码来检验大型语言模型对于绕过检测的努力。研究结果表明现有的人工智能生成内容检测器在区别人工编写的代码和人工智能生成的代码方面表现不佳 - 使用大型语言模型的入门编程的下一步提示生成
研究了大型语言模型在编程教育中的应用,通过提供自动化的下一步提示来支持学生,发现大多数由大型语言模型生成的反馈信息描述了一个具体的下一步,并针对学生的代码和方法进行个性化处理,但当学生接近任务结束时,提示可能包含误导性信息并缺乏足够的细节。 - Kattis 与 ChatGPT:人工智能时代编程任务的评估与评价
本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力,并发现 ChatGPT 能够独立解决一部分编程问题,但在复杂任务上遇到困难,结果为编程教育中应用 AI 工具的效用问题提供了新的观点。
- 基于稀疏注意力的代码分类神经网络
通过使用稀疏注意力机制的神经网络,我们介绍了一种名为 SACC 的方法用于代码分类任务,其中把源代码分为子树序列,并使用递归神经网络编码以及 Transformer 模型进行分类,证明了其在代码分类任务中的有效性和效率。
- 网络编程中的抄袭和 AI 辅助滥用:不公平的好处和特点
编程教育中的抄袭和滥用人工智能助手是当前的问题,该研究基于 web 编程的语境开发了自动化工具,通过比较学生独立完成、抄袭和 AI 助手(ChatGPT)的表现,观察了学生在这些行为下的考试成绩和完成时间,结果显示参与此类行为的学生在考试中 - 自动化人类导师式编程反馈:利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示
使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈,为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量,然后通过使用 GPT-3.5 作为 “学生” 模型来验证提 - 将大型语言模型集成到调试 C 编译器中以生成上下文错误解释
该论文介绍了一种利用大型语言模型(LLM)在我们的调试 C 编译器(DCC)中生成简单语言的增强型编译器错误解释的方法,通过专家评估,我们观察到 LLM 生成的编译器错误解释在 90% 的编译时错误和 75% 的运行时错误上概念上是准确的, - 去重排名解决方案程序,用于建议参考解决方案
本研究通过对程序设计教育中一些常用问题的重复解决方案进行去重和排序,使学习者能够更有效地参考和学习更多不同的解决方式。
- 面向编程教育的生成式人工智能:ChatGPT、GPT-4 和人类导师的基准测试
本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行 - 探索大型语言模型对初学者程序员求助请求的响应
本文探讨了在编程教育中使用大型语言模型(LLMs)的机会和威胁,研究表明 LLMs 有助于识别学生代码中的问题,但不可靠,需要在未来的研究中进一步挖掘。
- 视觉编程的神经任务合成
使用神经符号技术 NeurTaskSyn, 可以为给定的编程要求自动综合编程任务,可提高编程教育的质量。
- GPTutor: 一个由 ChatGPT 驱动的编程工具,用于代码解释
本文介绍了 GPTutor,一种使用 ChatGPT 算法的编程工具,它是一个 Visual Studio Code 扩展,使用 ChatGPT 算法为计算机编程提供编程代码解释,并可以通过设计的提示信息解释所选代码,初步评估表明,GPTu - 大型语言模型 (GPT) 困难回答关于代码的多选题
作者分析了三种不同的 GPT 模型(生成式预训练转换模型)在回答包括程序代码片段的多选题方面的有效性,发现包含代码片段的题目更加困难,这个发现可以帮助编程教育工作者适应他们的教学方法和评估,为学习者提供有意义的辅助。