大型语言模型能否自动评估书面文章的熟练程度？

COLINGMar, 2024

大型语言模型能否自动评估书面文章的熟练程度？

Can Large Language Models Automatically Score Proficiency of Written Essays?

Watheq Mansour, Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed

TL;DR利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Abstract

Although several methods were proposed to address the problem of automated essay scoring (AES) in the last 50 years, there is still much to desire in terms of effectiveness. Large Language Models (LLMs) are transformer-based models that demonstrate extraordinary capabilities on various tasks. In this paper, we test the ability of LLMs, given their powerful l

automated essay scoring large language models (llms)state-of-the-art models prompt-engineering tactics essay quality enhancement

发现论文，激发创造

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

通过多特性专业化引导大型语言模型进行零 - shot 作文评分

借助 ChatGPT 将写作熟练度分解成不同特征，并生成每个特征的评分标准，然后利用大型语言模型在几轮对话中提取特征得分，并通过特征平均和最大最小缩放得出总体得分，实验证明 Multi Trait Specialization 在所有大型语言模型和数据集上始终优于直接提示 (Vanilla)，同时在实际应用中，借助 MTS，小规模的 Llama2-13b-chat 显著优于 ChatGPT，实现有效的部署。

Apr, 2024

大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例

ChatGPT 以小样本的实验方法，通过对英文作文的自动评估，揭示了其在自动化作文评分方面的能力和限制，尽管结果存在回归效应，但有效的 ChatGPT 提示的设计和实施需要深厚的领域专业知识和技术能力。

Jan, 2024

探索 LLM 联合作文评分和反馈生成的提示策略

通过探索多种提词策略，本研究旨在研究基于大型语言模型（LLMs）的零样本和少样本生成文章反馈的能力，发现同时处理自动化文章评分（AES）和反馈生成可以改善 AES 性能，但评分对生成的反馈质量的影响最终仍较低。

Apr, 2024

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

使用 LLMs 自动评估学生代码理解

利用 Large Language Models (LLMs) 和 encoder-based Semantic Textual Similarity (STS) 模型对编程领域学生解答的自动评估进行了比较，发现 LLMs 在少样本和思维链模式下与 fine-tuned encoder-based 模型的性能相当。

Dec, 2023

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

语言模型是否喜欢自己的故事？用于自动故事评估的大型语言模型的激励

自动故事评估与生成在社交交互中起到重要作用，研究表明大语言模型能够替代人工评注者，但仍存在解释答案的困难。

May, 2024

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023