基于LLM的短文本答案自动评分方法探究

Sep, 2023

基于LLM的短文本答案自动评分方法探究

Towards LLM-based Autograding for Short Textual Answers

Johannes Schneider, Bernd Schenk, Christina Niklaus, Michaelis Vlachos

TL;DR通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然“开箱即用”的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Abstract

Grading of exams is an important, labor intensive, subjective, repetitive and frequently challenging task. The feasibility of autograding textual responses has greatly increased thanks to the availability of large langu

发现论文，激发创造

短文、多语言、多类型答案的可信自动评分

本研究使用由10 million 問題-答案組成的大型多語言數據集，展示了對Transformer模型的微調可以應用於複雜數據集的自動評分，並討論了評分的信任和倫理問題。透過人工介入自動評分的過程，我們展示了如何提高自動化評分答案的準確性，並實現了相當於助教的準確性。同時，我們提出了一種有效的方法讓老師控制系統出現的錯誤類型，並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。

Jan, 2022

大型语言模型在教育中的实际和伦理挑战：系统文献综述

本文对基于大型语言模型的教育技术创新进行了系统文献综述和理论分析，并提出了以人为本的开发推荐，以解决基于大型语言模型的教育任务自动化可能带来的实际和伦理挑战。

Mar, 2023

建立抗干扰的大型语言模型考试：指南和策略

研究探讨了大型语言模型（LLMs），例如ChatGPT在考试中的表现及对评估的影响，并提出了创建LLM抗拒力考试的指南，旨在确保评估的公正性和准确性。

Apr, 2023

使用LLMs自动评估学生代码理解

利用Large Language Models (LLMs)和encoder-based Semantic Textual Similarity (STS)模型对编程领域学生解答的自动评估进行了比较，发现LLMs在少样本和思维链模式下与fine-tuned encoder-based模型的性能相当。

Dec, 2023

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是GPT-4和经过精细调整的GPT-3.5作为自动作文评分（AES）系统的工具的有效性。实验结果显示LLM-based AES系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

利用大型语言模型研究自动评分和反馈

使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

May, 2024

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

如人类评分：用大型语言模型重新思考自动评估

我们提出了一个基于大型语言模型的评分系统，包括开发评分标准，提供准确一致的得分和定制化反馈，以及进行后评估，并在新的数据集上进行了广泛实验，验证了我们的方法的有效性。

May, 2024

我理解我得到这个分数的原因”: 带有反馈的自动短答案评分

提供反馈在教育环境中至关重要，该论文提出一种自动评分的新方法，通过引入大型语言模型进行反馈生成，以增强实际教育环境中的教学质量。

Jun, 2024

参考引导裁决：大型语言模型在自由形式文本自动评估中的应用

本研究解决了传统评估指标在评估大型语言模型生成的自由形式文本时存在的局限性。我们提出了一种参考引导裁决的方法，通过多种大型语言模型作为评审进行更可靠的评估，显著提高了与人类判断的一致性。实验结果表明，该方法有效且可扩展，为生成式人工智能的自动评估提供了新思路。

Aug, 2024