基于上下文元学习的自动短数学答案评分
本文提出了一种基于“数理语言处理”的数据驱动框架来自动评分开放性数学问题实现的方案,采用不同聚类方法组成的三层模型对多步解决方案进行追踪和错误定位,并在真实的慕课数据上进行了测试和验证,说明它可以极大地减少大规模教育平台上所需的人力投入。
Jan, 2015
本文提出了一种自动短答案评分学习框架,该框架针对K-12教育中的自由文本问题,旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系,实验结果表明在各项评估指标上均高于最新算法模型。
Sep, 2019
本研究使用由10 million 問題-答案組成的大型多語言數據集,展示了對Transformer模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。
Jan, 2022
本研究通过黑盒对抗攻击,揭示了当前自动化评分系统在处理短答案时面临的自然语言歧义和词性多样性问题,并透露了被任意操纵数据的系统的可利用漏洞。实验发现黑盒攻击可以使预测准确率降低 10 到 22 个百分点,从而提出了实际中更安全使用自动评分系统的建议。
Jan, 2022
本研究探讨了基于监督学习的自动评分方法中,考虑到不同人评分偏好的各种模型。研究采用短答数学回答数据集进行了定量实验,并分析了各个评分人的个体偏好。结果表明,采用考虑评分者偏好的模型能够提高自动评分准确性。
Jun, 2023
通过基于大规模的大学课程考试数据训练的神经网络模型,在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性,这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。
May, 2024
本研究解决了在形成性数学评估中对于复杂学生答案评分准确性的不足,提出了使用AMMORE数据集和思维链提示的新方法。通过实验发现,思维链提示在评分边缘案例中表现最佳,准确率提升至92%,同时有效减少了学生能力误判的比例,显示出大型语言模型在数学教育评估中的重要潜力。
Sep, 2024
本研究解决了自动短答案评分(ASAS)在提供详细可解释反馈方面的不足。我们提出了一种基于模块化检索增强生成的ASAS-F系统,该系统能够在零-shot和少-shot学习场景下进行评分及生成反馈,不需要大量的提示工程。实验结果表明,该系统在未见问题的评分准确性上提升了9%,为教育任务提供了可扩展且具成本效益的解决方案。
Sep, 2024
本研究针对开放式简答题(SAGs)在学习分析中存在的评分工作量大和评估不一致等问题,提出了一种统一的多智能体自动简答评分框架GradeOpt。该框架利用大型语言模型(LLMs)并引入反思者和精 refiners两个LLM智能体,通过自我反思优化评分标准,在教学内容知识(PCK)和内容知识(CK)问题的评分实验中展现出优于现有基线的评分准确性和与人类评分者行为的对齐性。
Oct, 2024