May, 2024

大型语言模型是否能胜任?一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

TL;DR这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。