Jan, 2025
基于生成人工智能应用的构建反应评分的有效性论证
Validity Arguments For Constructed Response Scoring Using Generative
Artificial Intelligence Applications
TL;DR本研究旨在解决生成人工智能在构建反应评分中的有效性证据不足的问题。文章提出一种新的比较方法,分析了基于特征的人工智能评分与生成人工智能评分系统之间的差异,并建议了收集有效性证据的最佳实践。研究发现,生成人工智能的有效性证据要求比基于特征的自然语言处理评分更为广泛,这显示了在高风险测试中应用生成AI的潜在影响和复杂性。