Sep, 2024
在形成性数学评估中学习爱护边缘案例:利用AMMORE数据集和思维链提示来提高评分准确性
Learning to Love Edge Cases in Formative Math Assessment: Using the
AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy
TL;DR本研究解决了在形成性数学评估中对于复杂学生答案评分准确性的不足,提出了使用AMMORE数据集和思维链提示的新方法。通过实验发现,思维链提示在评分边缘案例中表现最佳,准确率提升至92%,同时有效减少了学生能力误判的比例,显示出大型语言模型在数学教育评估中的重要潜力。