AAAIJan, 2024

利用大型语言模型评估导师应对学生数学错误的表现

TL;DR该研究调查两个生成模型在评估真实教师在应对学生数学错误方面的表现能力,发现 GPT-3.5-Turbo 和 GPT-4 都能够熟练评估与学生犯错有关的标准,但在识别学生错误的情况下存在局限性。未来的研究将致力于通过评估更多对话数据集和评估学习转化来提升泛化能力,进一步分析教师在真实场景中应对学生数学错误的表现。