Nov, 2023

应用大型语言模型和思维链路实现自动评分

TL;DR该研究通过应用大型语言模型(LLMs),特别是 GPT-3.5 和 GPT-4,结合思维链(CoT),对学生科学评估中的写作回答进行自动评分的应用进行了调查,并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明,GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能,并且使用 CoT 能够提高评分准确性,特别是当与项目描述和评分标准一起使用时。