一种基于知识组成的方法论用于评估 AI 助手

Jun, 2024

一种基于知识组成的方法论用于评估 AI 助手

A Knowledge-Component-Based Methodology for Evaluating AI Assistants

Laryn Qi, J.D. Zamfirescu-Pereira, Taehan Kim, Björn Hartmann, John DeNero...

TL;DR通过 GPT-4 大型语言模型提供的自动提示生成器，我们评估了一种针对 CS1 编程作业的系统，该系统提供关于学生如何改进错误解决方案的自然语言指导。我们回答了三个研究问题：RQ1. 提示是否帮助学生改进代码？RQ2. 提示在捕捉学生代码问题方面的效果如何？RQ3. 学生解决的问题与提示中提到的问题是否相同？通过定量分析，我们确定了一组细粒度的知识组件，并确定了每个练习、错误解决方案和生成的提示适用哪些组件。通过对两个大型的 CS1 课程数据进行对比，我们发现，访问提示有助于学生更快地解决代码问题，提示能够一致地捕捉到学生代码中最紧迫的错误，并且同时处理几个问题而不是单个 bug 的提示更有可能直接帮助学生取得进展。

Abstract

We evaluate an automatic hint generator for cs1 programming assignments powered by gpt-4, a large language model. This system provides nat

automatic hint generator gpt-4 cs1 programming assignments natural language guidance knowledge components

发现论文，激发创造

自动化人类导师式编程反馈：利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示

使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈，为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量，然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量，我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术，通过对三个实际数据集进行广泛评估展示了我们技术的有效性。

Oct, 2023

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023

探索多层次的 GPT 生成的编程提示如何支持或让初学者失望

近期的研究将大型语言模型（LLMs）应用于多样的教育环境，包括提供自适应编程提示，一种专注于帮助学生在问题解决中前进的反馈类型。本研究通过使用 LLM Hint Factory 的思辨法研究，对 12 名初学者进行了研究，该系统提供四个级别的提示，从一般的自然语言引导到具体的代码辅助，格式和粒度不同。我们发现，仅凭高级自然语言提示可能无济于事，甚至具有误导性，尤其是在处理下一步或与语法相关的帮助请求时。添加低级的提示，如带有行内注释的代码示例，可以更好地支持学生。这些发现为定制内容、格式和粒度级别的帮助响应，以准确识别和满足学生的学习需求，开辟了未来的研究方向。

Apr, 2024

AI 增强的编程练习自动修正：GPT-3.5 的有效性如何？

本文探讨了人工智能在提供个性化代码改正和生成反馈方面的潜力，根据两个真实作业的学生提交进行了调查，结果显示 73% 的提交正确识别，并且在这些情况中，GPT-3.5 还成功生成了有效且高质量的反馈。

Oct, 2023

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023

计算机编程中生成型人工智能反馈的学生认知和偏好

ChatGPT 在自动化给予 Java 编程作业反馈方面的可行性进行了研究，调查结果表明学生们普遍认为 ChatGPT 反馈与 Shute 建立的形成性反馈准则相一致，他们更喜欢包含他们代码的反馈，此研究还提供了改进 ChatGPT 生成反馈的具体见解。

Dec, 2023

TriviaHG：一个用于从事实性问题自动生成提示的数据集

该研究提出了一种通过生成提示来辅助回答问题的方法，并介绍了一个大规模数据集 TriviaHG，其中包含了 160,230 个提示对应于 16,645 个问题。此外，研究还提出了一种自动评估方法来衡量提示的有效性，研究结果表明提示对解决未知问题具有促进作用，提示质量依赖于答案的难易程度，并且可以使用自动评估方法进行提示评估。

Mar, 2024

智能辅导系统中的个性化反馈问题生成

研究了如何使用自动生成的问题作为智能辅导系统中个性化反馈的一种方法，此方法利用了因果分析和自然语言处理转换器模型以识别学生答案中的正确和错误部分，并训练了几个模型，以促使学生朝向正确的答案，并最终显示该方法对学生的学习效果提升达到 45%，拥有潜力改善生成式问答系统。

Jun, 2022

ChatGPT 与人类导师生成的代数提示之间的学习增益差异

本文评估了 ChatGPT 的学习增益，比较其提示的功效，发现 ChatGPT 提示的质量虽比人工创作的提示部分高，但人工创作的提示所得的学习增益明显高于 ChatGPT，暗示其未来在教育领域中的应用潜力与局限性。

Feb, 2023