Jun, 2024

一种基于知识组成的方法论用于评估 AI 助手

TL;DR通过 GPT-4 大型语言模型提供的自动提示生成器,我们评估了一种针对 CS1 编程作业的系统,该系统提供关于学生如何改进错误解决方案的自然语言指导。我们回答了三个研究问题:RQ1. 提示是否帮助学生改进代码?RQ2. 提示在捕捉学生代码问题方面的效果如何?RQ3. 学生解决的问题与提示中提到的问题是否相同?通过定量分析,我们确定了一组细粒度的知识组件,并确定了每个练习、错误解决方案和生成的提示适用哪些组件。通过对两个大型的 CS1 课程数据进行对比,我们发现,访问提示有助于学生更快地解决代码问题,提示能够一致地捕捉到学生代码中最紧迫的错误,并且同时处理几个问题而不是单个 bug 的提示更有可能直接帮助学生取得进展。