COLINGMar, 2024

大型语言模型能否自动评估书面文章的熟练程度?

TL;DR利用大型语言模型(LLMs)对写作文章进行自动评分的实验表明,虽然适当选择题目对任务和模型性质很重要,但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距,但它们提供了改善文章质量的反馈,为教师和学生提供帮助。