May, 2024

使用 LLMs 评估学生的开放式书面答案:基于 RAG 框架,针对 GPT-3.5,GPT-4,Claude-3 和 Mistral-Large 进行

TL;DR教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果,发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。