通过多特性专业化引导大型语言模型进行零 - shot 作文评分

Apr, 2024

通过多特性专业化引导大型语言模型进行零 - shot 作文评分

Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization

Sanwoo Lee, Yida Cai, Desong Meng, Ziyang Wang, Yunfang Wu

TL;DR借助 ChatGPT 将写作熟练度分解成不同特征，并生成每个特征的评分标准，然后利用大型语言模型在几轮对话中提取特征得分，并通过特征平均和最大最小缩放得出总体得分，实验证明 Multi Trait Specialization 在所有大型语言模型和数据集上始终优于直接提示 (Vanilla)，同时在实际应用中，借助 MTS，小规模的 Llama2-13b-chat 显著优于 ChatGPT，实现有效的部署。

Abstract

Advances in automated essay scoring (AES) have traditionally relied on labeled essays, requiring tremendous cost and expertise for their acquisition. Recently, large language models (LLMs) have achieved great suc

automated essay scoring large language models multi trait specialization writing proficiency scores

发现论文，激发创造

大型语言模型能否自动评估书面文章的熟练程度？

利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例

ChatGPT 以小样本的实验方法，通过对英文作文的自动评估，揭示了其在自动化作文评分方面的能力和限制，尽管结果存在回归效应，但有效的 ChatGPT 提示的设计和实施需要深厚的领域专业知识和技术能力。

Jan, 2024

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

Prompt - 和 Trait 感知的跨 Prompt 文章 Trait 评分

本文提出一种鲁棒的模型来预测各种特征分数，该模型考虑了文章是否符合题意，在不同题目下进行得分，使用文学 - 题意注意力机制编码文章，使用主题建模机制提取主题一致性特征，并使用特征相似损失函数计算多特征评分结果。实验证明了该模型在所有提示和特征方面的最先进水平。

May, 2023

探索 LLM 联合作文评分和反馈生成的提示策略

通过探索多种提词策略，本研究旨在研究基于大型语言模型（LLMs）的零样本和少样本生成文章反馈的能力，发现同时处理自动化文章评分（AES）和反馈生成可以改善 AES 性能，但评分对生成的反馈质量的影响最终仍较低。

Apr, 2024

GPT-4 能进行 L2 分析性评估吗？

通过对基于 GPT-4 的零样本公开数据集进行实验，我们观察到自动预测的分析分数与个体能力组成相关的多个特征之间存在显著相关性。

Apr, 2024

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

通过集合元调整数据集和提示，为零样本学习调整语言模型

该论文提出了元调谐（meta-tuning）方法，旨在直接针对零样本学习目标对预训练语言模型进行微调，应用于分类任务，并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明，相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型，元调整模型在新的任务上表现更好，同时我们认为，增加参数数量会进一步提升 AUC-ROC 分数。

Apr, 2021