Oct, 2024
基于大型语言模型的自动评分框架与人类级别指导优化
A LLM-Powered Automatic Grading Framework with Human-Level Guidelines
Optimization
TL;DR本研究针对开放式简答题(SAGs)在学习分析中存在的评分工作量大和评估不一致等问题,提出了一种统一的多智能体自动简答评分框架GradeOpt。该框架利用大型语言模型(LLMs)并引入反思者和精 refiners两个LLM智能体,通过自我反思优化评分标准,在教学内容知识(PCK)和内容知识(CK)问题的评分实验中展现出优于现有基线的评分准确性和与人类评分者行为的对齐性。