Nov, 2023
应用大型语言模型和思维链路实现自动评分
Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
TL;DR该研究通过应用大型语言模型(LLMs),特别是GPT-3.5和GPT-4,结合思维链(CoT),对学生科学评估中的写作回答进行自动评分的应用进行了调查,并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明,GPT-4相对于GPT-3.5在各种评分任务中表现出更高的性能,并且使用CoT能够提高评分准确性,特别是当与项目描述和评分标准一起使用时。