超越人类主观性与错误:一种新的人工智能评分系统
本文提出了一种自动短答案评分学习框架,该框架针对 K-12 教育中的自由文本问题,旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系,实验结果表明在各项评估指标上均高于最新算法模型。
Sep, 2019
探索使用深度强化学习来审计自动短答案评分(ASAG)模型,以揭示其质量不可靠的问题。通过培训一个强化学习代理来修改学生的回答,以获得自动评分模型的高分,并发现自动评分模型的潜在缺陷。
May, 2024
本研究综述了最近自然语言处理和机器学习方面的进展,特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。
Mar, 2022
本研究使用由 10 million 問題 - 答案組成的大型多語言數據集,展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。
Jan, 2022
使用自动短答案评分(ASAG)模型可以减轻评分的时间负担,同时鼓励教育者经常在课程中引入开放性问题。然而,目前最先进的 ASAG 模型是大型神经网络(NN),常被描述为 “黑匣子”,对于生成的输出哪些特征是重要的没有解释。为了创建一个强大且可解释的 ASAG 模型,我们尝试使用一种称为神经可添加模型(NAM)的模型类型,将 NN 的性能与可解释性模型的性能结合起来。我们使用学习科学中的知识整合(KI)框架指导特征工程,创建反映学生回答中是否包含某些思想的输入。我们假设指示预定义思想的包含(或排除)作为特征将足以使 NAM 具有良好的预测能力和可解释性,因为这可以指导使用 KI 评分标准的人工评分人员。我们使用相同的特征比较 NAM 和另一个可解释模型逻辑回归的性能,以及不需要特征工程的不可解释的神经模型 DeBERTa。
May, 2024
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
自动评分短问答题并解释评分决策是当下转换器方法的一项具有挑战性的目标。在 ASAG 中,自动检测评分理由并与逻辑推理相结合已经展现出一种有希望的方向,但主要挑战之一是要求学生回答中存在经过注解的评分理由,而这种注解在现有 ASAG 数据集中只有很少。为解决这个挑战,我们提出了(1)一种适用于 ASAG 数据集中评分理由的弱监督注解过程,以及(2)一种基于评分理由的可解释 ASAG 的神经符号模型。在双语、多领域、多问题的训练设置中,与现有最先进技术相比,我们的方法将均方根误差(RMSE)提高了 0.24 至 0.3。这个结果表明我们的方法为 ASAG 和教育 NLP 领域的未来研究提供了一个有前景的方向,能够生成高质量的成绩和相应的解释。
Mar, 2024
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
本文研究了一种自动短答案评分(ASAG)模型,提供了分析性得分和最终的整体得分。使用基于大型语言模型(LLM)的一次提示和文本相似性评分模型,通过小型手动注释数据集进行领域适应性,获得了较高的准确性和加权 kappa 值,从而在公开 ASAG 数据集的子集上取得了重大进展。
May, 2023
本研究通过黑盒对抗攻击,揭示了当前自动化评分系统在处理短答案时面临的自然语言歧义和词性多样性问题,并透露了被任意操纵数据的系统的可利用漏洞。实验发现黑盒攻击可以使预测准确率降低 10 到 22 个百分点,从而提出了实际中更安全使用自动评分系统的建议。
Jan, 2022