大型语言模型是否能胜任? 一项实证研究评估LLM评分K-12教育中的简答题能力

May, 2024

大型语言模型是否能胜任? 一项实证研究评估LLM评分K-12教育中的简答题能力

Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education

HTML

PDF

Owen Henkel, Adam Boxer, Libby Hills, Bill Roberts

TL;DR这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现，并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。

Abstract

This paper presents reports on a series of experiments with a novel dataset evaluating how well large language models (LLMs) can mark (i.e. grade) open text responses to short answer questions, Specifically, we e

发现论文，激发创造

GPT-4大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了GPT-4在标准基准2路和3路数据集SciEntsBank和Beetle上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用GPT-4 LLM的性能与手工设计的模型相当，但比经过专门训练的LLMs差。

Sep, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4和GPT-3.5在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了LLMs在洞察力提取方面的巨大潜力。

Sep, 2023

LLMs能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是GPT-3.5和GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4相对于GPT-3.5在各种评分任务中表现出更高的性能，并且使用CoT能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

使用LLMs评估学生的开放式书面答案：基于RAG框架，针对GPT-3.5，GPT-4，Claude-3和Mistral-Large进行

教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果，发现LLMs的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用LLMs进行教育评估的准确性和成本效益至关重要。

May, 2024

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

如人类评分：用大型语言模型重新思考自动评估

我们提出了一个基于大型语言模型的评分系统，包括开发评分标准，提供准确一致的得分和定制化反馈，以及进行后评估，并在新的数据集上进行了广泛实验，验证了我们的方法的有效性。

May, 2024

大型语言模型生成上下文相关问题的比较

本研究探讨了大型语言模型（LLMs）在教育环境中自动生成问题的有效性，并比较了三种模型在无微调情况下从大学幻灯片文本中生成问题的能力。研究发现，GPT-3.5和Llama 2-Chat 13B在问题的清晰度和问答对应性方面略优于Flan T5 XXL，特别是GPT-3.5在根据输入答案定制问题方面表现突出。

Jul, 2024

Dr.学院：评估大型语言模型在教育中提问能力的基准

该研究解决了大型语言模型（LLMs）在教学能力，特别是提问能力方面的缺乏评价。通过建立基准并利用安德森与克拉斯沃尔分类法，研究探索了LLMs生成教育问题的能力。结果表明，GPT-4在一般、文科和科学课程教学中表现出显著潜力，而Claude2更适合作为跨学科教师。

Aug, 2024

在形成性数学评估中学习爱护边缘案例：利用AMMORE数据集和思维链提示来提高评分准确性

本研究解决了在形成性数学评估中对于复杂学生答案评分准确性的不足，提出了使用AMMORE数据集和思维链提示的新方法。通过实验发现，思维链提示在评分边缘案例中表现最佳，准确率提升至92%，同时有效减少了学生能力误判的比例，显示出大型语言模型在数学教育评估中的重要潜力。

Sep, 2024