利用单次提示和文本相似性评分模型进行简答评分

May, 2023

利用单次提示和文本相似性评分模型进行简答评分

Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model

Su-Youn Yoon

TL;DR本文研究了一种自动短答案评分（ASAG）模型，提供了分析性得分和最终的整体得分。使用基于大型语言模型（LLM）的一次提示和文本相似性评分模型，通过小型手动注释数据集进行领域适应性，获得了较高的准确性和加权 kappa 值，从而在公开 ASAG 数据集的子集上取得了重大进展。

Abstract

In this study, we developed an automated short answer grading (ASAG) model that provided both analytic scores and final holistic scores. S

automated short answer grading analytic scores holistic scores llm-based prompting text similarity scoring

发现论文，激发创造

基于多路注意力网络的自动短答案评分

本文提出了一种自动短答案评分学习框架，该框架针对 K-12 教育中的自由文本问题，旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系，实验结果表明在各项评估指标上均高于最新算法模型。

Sep, 2019

使用 AutoSAS 进行评分 —— 一种用于短答案评分的自动化系统

本文介绍了一个名为 AutoSAS 的快速、可扩展和准确的自动短回答评分系统，该系统使用诸如词汇多样性、Word2Vec、提示和内容重叠等功能来实现其性能，并通过使用 Automated Student Assessment Prize 短回答评分（ASAP-SAS）公共数据集进行了评估，其表现与人类相当。

Dec, 2020

通过可解释的神经符号管道增强多领域自动短答案评分

自动评分短问答题并解释评分决策是当下转换器方法的一项具有挑战性的目标。在 ASAG 中，自动检测评分理由并与逻辑推理相结合已经展现出一种有希望的方向，但主要挑战之一是要求学生回答中存在经过注解的评分理由，而这种注解在现有 ASAG 数据集中只有很少。为解决这个挑战，我们提出了（1）一种适用于 ASAG 数据集中评分理由的弱监督注解过程，以及（2）一种基于评分理由的可解释 ASAG 的神经符号模型。在双语、多领域、多问题的训练设置中，与现有最先进技术相比，我们的方法将均方根误差（RMSE）提高了 0.24 至 0.3。这个结果表明我们的方法为 ASAG 和教育 NLP 领域的未来研究提供了一个有前景的方向，能够生成高质量的成绩和相应的解释。

Mar, 2024

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

短答数学题评分人偏好的建模与分析

本研究探讨了基于监督学习的自动评分方法中，考虑到不同人评分偏好的各种模型。研究采用短答数学回答数据集进行了定量实验，并分析了各个评分人的个体偏好。结果表明，采用考虑评分者偏好的模型能够提高自动评分准确性。

Jun, 2023

深度学习自动短答案评分综述：从词嵌入到变形金刚

本研究综述了最近自然语言处理和机器学习方面的进展，特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。

Mar, 2022

平衡成本和质量：探索人在环中的框架，用于自动化短答案评分

本文介绍了一种人与深度学习模型相结合的方法，用于保证短文评分的质量和降低评分成本。通过引入可靠度估计方法来强制高质量的自动评分结果，同时把低可靠度的评分结果交给人类评分者来完成，实现了自动评分和人类评分者的协同作业。实验表明，该方法可以达到目标评分质量。

Jun, 2022

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023