Jan, 2024
从自动化到增强:大语言模型提升作文评分领域
From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape
TL;DR研究调查了大型语言模型(LLMs),特别是GPT-4和经过精细调整的GPT-3.5作为自动作文评分(AES)系统的工具的有效性。实验结果显示LLM-based AES系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。