本研究使用由 10 million 問題 - 答案組成的大型多語言數據集,展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。
Jan, 2022
本研究通过黑盒对抗攻击,揭示了当前自动化评分系统在处理短答案时面临的自然语言歧义和词性多样性问题,并透露了被任意操纵数据的系统的可利用漏洞。实验发现黑盒攻击可以使预测准确率降低 10 到 22 个百分点,从而提出了实际中更安全使用自动评分系统的建议。
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
通过基于大规模的大学课程考试数据训练的神经网络模型,在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性,这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。
May, 2024
本文提出了一种自动短答案评分学习框架,该框架针对 K-12 教育中的自由文本问题,旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系,实验结果表明在各项评估指标上均高于最新算法模型。
Sep, 2019
本文提出了一种基于 “数理语言处理” 的数据驱动框架来自动评分开放性数学问题实现的方案,采用不同聚类方法组成的三层模型对多步解决方案进行追踪和错误定位,并在真实的慕课数据上进行了测试和验证,说明它可以极大地减少大规模教育平台上所需的人力投入。
Jan, 2015
本文介绍了一种利用在场 BERT 调整的方法来解决在多问题共享阅读材料的阅读理解测试中的自动评分问题,并证明了这种方法的有效性。
May, 2022
本文旨在通过大数据分析和自动评分技术,解决开放式问答评估所面临的高成本和低效率的困难,构建一个能够实时记录学生答题进程并进行评分的系统,以改善教育质量。
Oct, 2022
本研究探讨了基于监督学习的自动评分方法中,考虑到不同人评分偏好的各种模型。研究采用短答数学回答数据集进行了定量实验,并分析了各个评分人的个体偏好。结果表明,采用考虑评分者偏好的模型能够提高自动评分准确性。
Jun, 2023
本文研究了一种自动短答案评分(ASAG)模型,提供了分析性得分和最终的整体得分。使用基于大型语言模型(LLM)的一次提示和文本相似性评分模型,通过小型手动注释数据集进行领域适应性,获得了较高的准确性和加权 kappa 值,从而在公开 ASAG 数据集的子集上取得了重大进展。
May, 2023