Apr, 2024

使用 RiceChem 数据集进行自动长篇答案评分

TL;DR我们介绍了一项新的研究领域,教育自然语言处理中的自动长答案评分 (ALAG)。通过将其作为含评分标准的蕴涵问题来表述 ALAG,我们展示了基于评分标准的方法在捕捉学生回答细微差别方面的优势。我们还在冷启动情景下研究了模型的性能,并将开源大型语言模型与 GPT 模型进行了比较,突显了 ALAG 相对于短答案评分的复杂性。