Sep, 2023

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

TL;DR自动短答案评分(ASAG)是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下,让教育者对大班课中的自由回答进行评分和反馈。近年来,经过精心训练的模型已经取得了越来越高的性能水平。最近,预训练的大型语言模型(LLMs)作为一种通用工具出现了,并且引发了一个有趣的问题,即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能,除了评分学生答案与参考答案的对齐标准任务外,还研究了不透露参考答案的情况。我们发现,总体而言,预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当,但比经过专门训练的 LLMs 差。