探索 LLM 联合作文评分和反馈生成的提示策略

Apr, 2024

探索 LLM 联合作文评分和反馈生成的提示策略

Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation

Maja Stahl, Leon Biermann, Andreas Nehring, Henning Wachsmuth

TL;DR通过探索多种提词策略，本研究旨在研究基于大型语言模型（LLMs）的零样本和少样本生成文章反馈的能力，发现同时处理自动化文章评分（AES）和反馈生成可以改善 AES 性能，但评分对生成的反馈质量的影响最终仍较低。

Abstract

individual feedback can help students improve their essay writing skills. However, the manual effort required to provide such feedback limits individualization in practice. →

individual feedback essay writing skills automatically-generated essay feedback large language models automated essay scoring

发现论文，激发创造

大型语言模型能否自动评估书面文章的熟练程度？

利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

文本生成的更好 LLM 评估器：提示输出排序和优化的影响

通过研究大型语言模型的评估生成文本的提示设计，本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响，进而提出了优化评分一致性的方法。

Jun, 2024

超越一致性：基于语言信息支持的反事实分析，诊断自动化作文评分方法的合理性对齐

使用大型语言模型辅助对反事实干预的改进方法揭示了自动作文评分方法在评分机制上的不足，并展示了大型语言模型在与评分标准更全面地对齐方面的优势，同时也能识别反事实干预进行反馈，提高了对神经自动作文评分方法的理解，对其他追求模型驱动决策透明性的领域也具有应用潜力。

May, 2024

通过多特性专业化引导大型语言模型进行零 - shot 作文评分

借助 ChatGPT 将写作熟练度分解成不同特征，并生成每个特征的评分标准，然后利用大型语言模型在几轮对话中提取特征得分，并通过特征平均和最大最小缩放得出总体得分，实验证明 Multi Trait Specialization 在所有大型语言模型和数据集上始终优于直接提示 (Vanilla)，同时在实际应用中，借助 MTS，小规模的 Llama2-13b-chat 显著优于 ChatGPT，实现有效的部署。

Apr, 2024

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

LLM-Rec：借助大型语言模型的个性化推荐

通过输入增强措施，我们研究了各种提示策略来提高大型语言模型在个性化内容推荐中的性能。我们提出了一种名为 LLM-Rec 的方法，包括四种不同的提示策略：基本提示、推荐驱动的提示、参与驱动的提示和推荐驱动加参与驱动的提示。我们的实证实验证明结合原始内容描述和 LLM 生成的增强输入文本，使用这些提示策略可以改善推荐性能。这一发现强调了将多样的提示和输入增强技术与大型语言模型相结合以提高个性化内容推荐能力的重要性。

Jul, 2023

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

重新审视自动提示：我们真的做得更好了吗？

本文研究了自动提示技术在六个不同的下游任务和更广泛的 K-shot 学习场景中的应用。我们发现，自动提示并不总是优于简单的手动提示。我们的研究表明，在这一领域的研究中，除了 fine-tuning 之外还应该使用手动提示作为基线。

Apr, 2023