Jul, 2024

大型语言模型作为作业评估器:1000+学生课程中的见解、反馈和挑战

TL;DR使用大型语言模型(LLMs)进行自动评估已成为自然语言处理研究中的重要评估方法。然而,尚不确定这些基于LLM的评估器是否可以应用于真实的课堂环境中,以评估学生的作业。本实证报告分享了我们如何在一门拥有1028名学生的大学课程中使用GPT-4作为自动作业评估器。根据学生的回答,我们发现当学生可以自由使用基于LLM的评估器时,这些评估器通常是被学生接受的。然而,学生们也指出LLM有时未能遵循评估指示。此外,我们观察到学生可以轻松操纵基于LLM的评估器来输出特定的字符串,从而在不符合作业评分标准的情况下获得高分。基于学生反馈和我们的经验,我们提供了一些关于将基于LLM的评估器纳入未来课堂的建议。