May, 2024

使用LLMs评估学生的开放式书面答案:基于RAG框架,针对GPT-3.5,GPT-4,Claude-3和Mistral-Large进行

TL;DR教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果,发现LLMs的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用LLMs进行教育评估的准确性和成本效益至关重要。