CodeAid: 评估基于 LLM (基于学习的机器学习) 的编程助理在课堂中的部署，以平衡学生和教育者的需求

Jan, 2024

CodeAid: 评估基于 LLM (基于学习的机器学习) 的编程助理在课堂中的部署，以平衡学生和教育者的需求

CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs

PDF

Majeed Kazemitabaar, Runlong Ye, Xiaoning Wang, Austin Z. Henley, Paul Denny...

TL;DR面向编程学习，CodeAid 是一种基于 LLM 的编程助手，提供即时帮助和技术正确的回答，但避免直接显示代码解决方案。CodeAid 主要用于概念理解和调试，受到教育工作者的认可，但也引发一些学生错误反馈和依赖 ChatGPT 的担忧。

Abstract

Timely, personalized feedback is essential for students learning programming, especially as class sizes expand. LLM-based tools like ChatGPT offer instant support, but reveal direct answers with code, which may hinder deep conceptual engagement. We developed codeaid, an LLM-based

timely personalized feedback programming assistant codeaid conceptual understanding debugging

发现论文，激发创造

ChatGPT 在初级编程课程中是否能担任助教的角色？

研究论文探讨了在一个初级编程课程中使用 ChatGPT 作为虚拟助教的潜力，并通过比较其与人类助教在一些助教功能上的表现来评估 ChatGPT 的能力。论文结论中讨论了将 ChatGPT 纳入计算机教育中对自动分级、个性化学习和教学支持的影响。

Dec, 2023

ChatGPT: 最终的编程助手吗？—— 它有多远？

我们通过实证分析了 ChatGPT 在无人辅助编程助手方面的潜力，并强调了其相对程序生成、程序修复、代码摘要方面的表现，并对其在常见编程问题上的表现进行了评估，这证明 ChatGPT 有效地处理典型的编程挑战，但我们也发现，综合的描述可能会限制 ChatGPT 的关注点并阻碍其利用其广泛的知识进行问题解决。

Apr, 2023

计算机编程中生成型人工智能反馈的学生认知和偏好

ChatGPT 在自动化给予 Java 编程作业反馈方面的可行性进行了研究，调查结果表明学生们普遍认为 ChatGPT 反馈与 Shute 建立的形成性反馈准则相一致，他们更喜欢包含他们代码的反馈，此研究还提供了改进 ChatGPT 生成反馈的具体见解。

Dec, 2023

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

ChatGPT 为帮助而来，而非取代任何人 —— 对将 ChatGPT 整合到计算机科学课程中的学生观点评估

大型语言模型（LLM），如 GPT 和 Bard，能够根据文本描述生成代码，具有显著的效果。该研究调查了 52 名大一计算机科学专业学生对具备代码生成功能的技术的看法，结果显示学生们普遍支持 GPT 在学术使用中的重要性，并强调了对 GPT 的具体培训的需求。

Apr, 2024

基于 LLM 助手何时出错：对基于提示的软件求助交互有效性的研究

大型语言模型（LLM）助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot，后者还提供了构建适当提示的指南。但令人惊讶的是，虽然 SoftAIBot 优于基准 LLM，但我们的结果显示，无论是否使用提示指南和领域上下文的集成，LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联，并且通常逐字逐句地遵循 LLM 的建议，即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难，降低了任务完成率。我们的详细分析还表明，用户对 LLM 的回应中的错误毫不知情，这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加，我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性，以帮助用户理解基于提示的交互，识别偏见，并最大化 LLM 助手的效用。

Feb, 2024

使用大型语言模型的 IDE 内基于生成的信息支持

本研究对基于大型语言模型的对话 UI 进行了研究，目标是实现上下文感知的工具，该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件，允许用户使用高级请求查询后端（例如 OpenAI 的 GPT-3.5 和 GPT-4），我们进行了 32 名参与者的探索性用户研究，研究确认这种方法比 Web 搜索更有效地帮助理解代码，但效果的差异因参与者的经验水平而异。

Jul, 2023

测验计算机科学本科生在 ChatGPT 使用中：“不像 Jarvis，但非常接近！

本研究采用了学生至上的方法，通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT，这是由 OpenAI 发布的一种流行的大型语言模型。研究发现，大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极，但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战，这些发现具有更广泛的意义，并可适用于其他大型语言模型及其在计算机教育中的作用。

Nov, 2023

分析使用 ChatGPT 解决入门编程任务的初学者程序员的聊天协议

通过分析大型语言模型（LLMs）与入门级编程学生的交互，我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况，这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。

May, 2024

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023