大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例

Jan, 2024

大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例

Empirical Study of Large Language Models as Automated Essay Scoring Tools in English Composition__Taking TOEFL Independent Writing Task for Example

PDF

Wei Xia, Shaoguang Mao, Chanjing Zheng

TL;DRChatGPT 以小样本的实验方法，通过对英文作文的自动评估，揭示了其在自动化作文评分方面的能力和限制，尽管结果存在回归效应，但有效的 ChatGPT 提示的设计和实施需要深厚的领域专业知识和技术能力。

Abstract

Large language models have demonstrated exceptional capabilities in tasks involving natural language generation, reasoning, and comprehension. This study aims to construct prompts and comments grounded in the diverse scoring criteria delineated within the official TOEFL guide. The primary objective is to assess the capabilities and constraints of

chatgpt automated essay scoring prompt learning toefl independent writing task deep neural networks

发现论文，激发创造

大型语言模型能否自动评估书面文章的熟练程度？

利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

人工智能和 ChatGPT 生成文章与人类写作的大规模比较

通过对比 ChatGPT 与人类写作的 argumentative 学生论文，我们系统地评估了 AI 生成内容的质量，结果表明 ChatGPT 生成的论文在质量上要高于人类写作。

Apr, 2023

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法，实验证明 ChatGPT 能够有效地从不同角度评估文本质量，尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是，直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。

Apr, 2023

发挥 ChatGPT 在翻译中的威力：一项实证研究

本文探究了如何用 ChatGPT 辅助机器翻译，提出了多种翻译提示。实验结果表明，ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好，在低资源翻译方面略逊于专业翻译系统，并在多参考文献翻译和特定领域翻译方面表现出优异的性能。此外，我们进行了几个快速提示，表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。

Apr, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023