COLINGMar, 2024
大型语言模型能否自动评估书面文章的熟练程度?
Can Large Language Models Automatically Score Proficiency of Written Essays?
Watheq Mansour, Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed
TL;DR利用大型语言模型(LLMs)对写作文章进行自动评分的实验表明,虽然适当选择题目对任务和模型性质很重要,但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距,但它们提供了改善文章质量的反馈,为教师和学生提供帮助。