深度学习自动短答案评分综述：从词嵌入到变形金刚

Mar, 2022

深度学习自动短答案评分综述：从词嵌入到变形金刚

Survey on Automated Short Answer Grading with Deep Learning: from Word Embeddings to Transformers

Stefan Haller, Adina Aldea, Christin Seifert, Nicola Strisciuglio

TL;DR本研究综述了最近自然语言处理和机器学习方面的进展，特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。

Abstract

automated short answer grading (asag) has gained attention in education as a means to scale educational tasks to the growing number of students. Recent progress in →

automated short answer grading asag natural language processing machine learning deep learning

发现论文，激发创造

基于多路注意力网络的自动短答案评分

本文提出了一种自动短答案评分学习框架，该框架针对 K-12 教育中的自由文本问题，旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系，实验结果表明在各项评估指标上均高于最新算法模型。

Sep, 2019

可解释的神经叠加模型自动评分

使用自动短答案评分（ASAG）模型可以减轻评分的时间负担，同时鼓励教育者经常在课程中引入开放性问题。然而，目前最先进的 ASAG 模型是大型神经网络（NN），常被描述为 “黑匣子”，对于生成的输出哪些特征是重要的没有解释。为了创建一个强大且可解释的 ASAG 模型，我们尝试使用一种称为神经可添加模型（NAM）的模型类型，将 NN 的性能与可解释性模型的性能结合起来。我们使用学习科学中的知识整合（KI）框架指导特征工程，创建反映学生回答中是否包含某些思想的输入。我们假设指示预定义思想的包含（或排除）作为特征将足以使 NAM 具有良好的预测能力和可解释性，因为这可以指导使用 KI 评分标准的人工评分人员。我们使用相同的特征比较 NAM 和另一个可解释模型逻辑回归的性能，以及不需要特征工程的不可解释的神经模型 DeBERTa。

May, 2024

深度强化学习下的自动评分模型审计

探索使用深度强化学习来审计自动短答案评分（ASAG）模型，以揭示其质量不可靠的问题。通过培训一个强化学习代理来修改学生的回答，以获得自动评分模型的高分，并发现自动评分模型的潜在缺陷。

May, 2024

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

通过可解释的神经符号管道增强多领域自动短答案评分

自动评分短问答题并解释评分决策是当下转换器方法的一项具有挑战性的目标。在 ASAG 中，自动检测评分理由并与逻辑推理相结合已经展现出一种有希望的方向，但主要挑战之一是要求学生回答中存在经过注解的评分理由，而这种注解在现有 ASAG 数据集中只有很少。为解决这个挑战，我们提出了（1）一种适用于 ASAG 数据集中评分理由的弱监督注解过程，以及（2）一种基于评分理由的可解释 ASAG 的神经符号模型。在双语、多领域、多问题的训练设置中，与现有最先进技术相比，我们的方法将均方根误差（RMSE）提高了 0.24 至 0.3。这个结果表明我们的方法为 ASAG 和教育 NLP 领域的未来研究提供了一个有前景的方向，能够生成高质量的成绩和相应的解释。

Mar, 2024

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023

利用单次提示和文本相似性评分模型进行简答评分

本文研究了一种自动短答案评分（ASAG）模型，提供了分析性得分和最终的整体得分。使用基于大型语言模型（LLM）的一次提示和文本相似性评分模型，通过小型手动注释数据集进行领域适应性，获得了较高的准确性和加权 kappa 值，从而在公开 ASAG 数据集的子集上取得了重大进展。

May, 2023

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

使用 RiceChem 数据集进行自动长篇答案评分

我们介绍了一项新的研究领域，教育自然语言处理中的自动长答案评分 (ALAG)。通过将其作为含评分标准的蕴涵问题来表述 ALAG，我们展示了基于评分标准的方法在捕捉学生回答细微差别方面的优势。我们还在冷启动情景下研究了模型的性能，并将开源大型语言模型与 GPT 模型进行了比较，突显了 ALAG 相对于短答案评分的复杂性。

Apr, 2024