May, 2024
大型语言模型是否能胜任? 一项实证研究评估LLM评分K-12教育中的简答题能力
Can Large Language Models Make the Grade? An Empirical Study Evaluating
LLMs Ability to Mark Short Answer Questions in K-12 Education
TL;DR这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现,并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。