短文、多语言、多类型答案的可信自动评分

Jan, 2022

短文、多语言、多类型答案的可信自动评分

Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type Answers

Johannes Schneider, Robin Richner, Micha Riser

TL;DR本研究使用由 10 million 問題 - 答案組成的大型多語言數據集，展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分，並討論了評分的信任和倫理問題。透過人工介入自動評分的過程，我們展示了如何提高自動化評分答案的準確性，並實現了相當於助教的準確性。同時，我們提出了一種有效的方法讓老師控制系統出現的錯誤類型，並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。

Abstract

autograding short textual answers has become much more feasible due to the rise of nlp and the increased availability of question-answer pairs brought about by a shift to online education. →

autograding nlp machine learning ethics accuracy

发现论文，激发创造

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

关于形容词和副词的对抗性使用：自动短答案评分中的作弊行为

本研究通过黑盒对抗攻击，揭示了当前自动化评分系统在处理短答案时面临的自然语言歧义和词性多样性问题，并透露了被任意操纵数据的系统的可利用漏洞。实验发现黑盒攻击可以使预测准确率降低 10 到 22 个百分点，从而提出了实际中更安全使用自动评分系统的建议。

Jan, 2022

利用自然语言处理进行数学归纳证明的自动评分

数学证明教育的关键词包括准时反馈、自然语言处理、自动分级自由形式数学证明、用户研究。

Jun, 2024

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023

基于 Transformer 模型的自动化论文评分数据增强

本文研究使用 Transformer 模型与数据增强技术解决自动评分的问题，通过实验证明其有效性。

Oct, 2022

模型评估和自动可解释性的鲁棒性探索

通过对语言模型进行评估，我们发现其在不同数据集中，包括新的虚假评估中，对评估注入的改变非常敏感。类似的注入也可用于自动的解释性框架，以产生误导性的模型编写解释。这些结果激发了进一步的研究，并应该警告我们不要对评估和自动解释过度信任。

Nov, 2023

使用 Transformers 的无监督问答评估

本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示，并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确，其方法不需要任何标记数据且优于强启发式基线，在两个数据集和七个领域上均能够达到较高准确率。

Oct, 2020