通过可解释的神经符号管道增强多领域自动短答案评分

Mar, 2024

通过可解释的神经符号管道增强多领域自动短答案评分

Enhancing Multi-Domain Automatic Short Answer Grading through an Explainable Neuro-Symbolic Pipeline

Felix Künnecke, Anna Filighera, Colin Leong, Tim Steuer

TL;DR自动评分短问答题并解释评分决策是当下转换器方法的一项具有挑战性的目标。在 ASAG 中，自动检测评分理由并与逻辑推理相结合已经展现出一种有希望的方向，但主要挑战之一是要求学生回答中存在经过注解的评分理由，而这种注解在现有 ASAG 数据集中只有很少。为解决这个挑战，我们提出了（1）一种适用于 ASAG 数据集中评分理由的弱监督注解过程，以及（2）一种基于评分理由的可解释 ASAG 的神经符号模型。在双语、多领域、多问题的训练设置中，与现有最先进技术相比，我们的方法将均方根误差（RMSE）提高了 0.24 至 0.3。这个结果表明我们的方法为 ASAG 和教育 NLP 领域的未来研究提供了一个有前景的方向，能够生成高质量的成绩和相应的解释。

Abstract

grading short answer questions automatically with interpretable reasoning behind the →

grading short answer questions interpretable reasoning justification cue detection neuro-symbolic architectures

发现论文，激发创造

基于多路注意力网络的自动短答案评分

本文提出了一种自动短答案评分学习框架，该框架针对 K-12 教育中的自由文本问题，旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系，实验结果表明在各项评估指标上均高于最新算法模型。

Sep, 2019

可解释的神经叠加模型自动评分

使用自动短答案评分（ASAG）模型可以减轻评分的时间负担，同时鼓励教育者经常在课程中引入开放性问题。然而，目前最先进的 ASAG 模型是大型神经网络（NN），常被描述为 “黑匣子”，对于生成的输出哪些特征是重要的没有解释。为了创建一个强大且可解释的 ASAG 模型，我们尝试使用一种称为神经可添加模型（NAM）的模型类型，将 NN 的性能与可解释性模型的性能结合起来。我们使用学习科学中的知识整合（KI）框架指导特征工程，创建反映学生回答中是否包含某些思想的输入。我们假设指示预定义思想的包含（或排除）作为特征将足以使 NAM 具有良好的预测能力和可解释性，因为这可以指导使用 KI 评分标准的人工评分人员。我们使用相同的特征比较 NAM 和另一个可解释模型逻辑回归的性能，以及不需要特征工程的不可解释的神经模型 DeBERTa。

May, 2024

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

深度学习自动短答案评分综述：从词嵌入到变形金刚

本研究综述了最近自然语言处理和机器学习方面的进展，特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。

Mar, 2022

利用单次提示和文本相似性评分模型进行简答评分

本文研究了一种自动短答案评分（ASAG）模型，提供了分析性得分和最终的整体得分。使用基于大型语言模型（LLM）的一次提示和文本相似性评分模型，通过小型手动注释数据集进行领域适应性，获得了较高的准确性和加权 kappa 值，从而在公开 ASAG 数据集的子集上取得了重大进展。

May, 2023

深度强化学习下的自动评分模型审计

探索使用深度强化学习来审计自动短答案评分（ASAG）模型，以揭示其质量不可靠的问题。通过培训一个强化学习代理来修改学生的回答，以获得自动评分模型的高分，并发现自动评分模型的潜在缺陷。

May, 2024

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

基于知识图谱的语义驱动填空奖励抽象摘要生成

本文介绍了 ASGARD，这是一个新颖的带有图形增强和基于语义驱动奖励的抽象摘要框架，使用双编码器和知识图形提高了生成的摘要的信息性能，并取得了对新闻文本具有竞争力的性能。

May, 2020

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

短文、多语言、多类型答案的可信自动评分

本研究使用由 10 million 問題 - 答案組成的大型多語言數據集，展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分，並討論了評分的信任和倫理問題。透過人工介入自動評分的過程，我們展示了如何提高自動化評分答案的準確性，並實現了相當於助教的準確性。同時，我們提出了一種有效的方法讓老師控制系統出現的錯誤類型，並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。

Jan, 2022