深度强化学习下的自动评分模型审计

May, 2024

深度强化学习下的自动评分模型审计

Auditing an Automatic Grading Model with deep Reinforcement Learning

Aubrey Condor, Zachary Pardos

TL;DR探索使用深度强化学习来审计自动短答案评分（ASAG）模型，以揭示其质量不可靠的问题。通过培训一个强化学习代理来修改学生的回答，以获得自动评分模型的高分，并发现自动评分模型的潜在缺陷。

Abstract

We explore the use of deep reinforcement learning to audit an automatic short answer grading (ASAG) model. Automatic grading may decrease the time burden of rating open-ended items for educators, but a lack of robust ev

deep reinforcement learning automatic short answer grading evaluation methods asag models reinforcement learning agent

发现论文，激发创造

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

基于多路注意力网络的自动短答案评分

本文提出了一种自动短答案评分学习框架，该框架针对 K-12 教育中的自由文本问题，旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系，实验结果表明在各项评估指标上均高于最新算法模型。

Sep, 2019

深度学习自动短答案评分综述：从词嵌入到变形金刚

本研究综述了最近自然语言处理和机器学习方面的进展，特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。

Mar, 2022

可解释的神经叠加模型自动评分

使用自动短答案评分（ASAG）模型可以减轻评分的时间负担，同时鼓励教育者经常在课程中引入开放性问题。然而，目前最先进的 ASAG 模型是大型神经网络（NN），常被描述为 “黑匣子”，对于生成的输出哪些特征是重要的没有解释。为了创建一个强大且可解释的 ASAG 模型，我们尝试使用一种称为神经可添加模型（NAM）的模型类型，将 NN 的性能与可解释性模型的性能结合起来。我们使用学习科学中的知识整合（KI）框架指导特征工程，创建反映学生回答中是否包含某些思想的输入。我们假设指示预定义思想的包含（或排除）作为特征将足以使 NAM 具有良好的预测能力和可解释性，因为这可以指导使用 KI 评分标准的人工评分人员。我们使用相同的特征比较 NAM 和另一个可解释模型逻辑回归的性能，以及不需要特征工程的不可解释的神经模型 DeBERTa。

May, 2024

通过可解释的神经符号管道增强多领域自动短答案评分

自动评分短问答题并解释评分决策是当下转换器方法的一项具有挑战性的目标。在 ASAG 中，自动检测评分理由并与逻辑推理相结合已经展现出一种有希望的方向，但主要挑战之一是要求学生回答中存在经过注解的评分理由，而这种注解在现有 ASAG 数据集中只有很少。为解决这个挑战，我们提出了（1）一种适用于 ASAG 数据集中评分理由的弱监督注解过程，以及（2）一种基于评分理由的可解释 ASAG 的神经符号模型。在双语、多领域、多问题的训练设置中，与现有最先进技术相比，我们的方法将均方根误差（RMSE）提高了 0.24 至 0.3。这个结果表明我们的方法为 ASAG 和教育 NLP 领域的未来研究提供了一个有前景的方向，能够生成高质量的成绩和相应的解释。

Mar, 2024

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

利用单次提示和文本相似性评分模型进行简答评分

本文研究了一种自动短答案评分（ASAG）模型，提供了分析性得分和最终的整体得分。使用基于大型语言模型（LLM）的一次提示和文本相似性评分模型，通过小型手动注释数据集进行领域适应性，获得了较高的准确性和加权 kappa 值，从而在公开 ASAG 数据集的子集上取得了重大进展。

May, 2023

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

短文、多语言、多类型答案的可信自动评分

本研究使用由 10 million 問題 - 答案組成的大型多語言數據集，展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分，並討論了評分的信任和倫理問題。透過人工介入自動評分的過程，我們展示了如何提高自動化評分答案的準確性，並實現了相當於助教的準確性。同時，我們提出了一種有效的方法讓老師控制系統出現的錯誤類型，並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。

Jan, 2022

一种强化学习方法用于视觉问答验证：以糖尿病黄斑水肿分级为应用

通过自动自适应提问方法来更好理解针对医学图像分析的机器学习模型的性能，以提供更丰富和适当的验证方法，目的是揭示针对图片相关任意问题回答的高效视觉问答算法的推理行为。

Jul, 2023