探索 LLM 联合作文评分和反馈生成的提示策略
利用大型语言模型(LLMs)对写作文章进行自动评分的实验表明,虽然适当选择题目对任务和模型性质很重要,但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距,但它们提供了改善文章质量的反馈,为教师和学生提供帮助。
Mar, 2024
研究调查了大型语言模型(LLMs),特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分(AES)系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。
Jan, 2024
利用大语言模型在现代教育领域创新的机会,通过研究提问型大语言模型、语法错误解释和人力资源面试评估,揭示了大语言模型在改变教育实践中的潜力和限制。
May, 2024
通过研究大型语言模型的评估生成文本的提示设计,本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响,进而提出了优化评分一致性的方法。
Jun, 2024
使用大型语言模型辅助对反事实干预的改进方法揭示了自动作文评分方法在评分机制上的不足,并展示了大型语言模型在与评分标准更全面地对齐方面的优势,同时也能识别反事实干预进行反馈,提高了对神经自动作文评分方法的理解,对其他追求模型驱动决策透明性的领域也具有应用潜力。
May, 2024
借助 ChatGPT 将写作熟练度分解成不同特征,并生成每个特征的评分标准,然后利用大型语言模型在几轮对话中提取特征得分,并通过特征平均和最大最小缩放得出总体得分,实验证明 Multi Trait Specialization 在所有大型语言模型和数据集上始终优于直接提示 (Vanilla),同时在实际应用中,借助 MTS,小规模的 Llama2-13b-chat 显著优于 ChatGPT,实现有效的部署。
Apr, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
通过输入增强措施,我们研究了各种提示策略来提高大型语言模型在个性化内容推荐中的性能。我们提出了一种名为 LLM-Rec 的方法,包括四种不同的提示策略:基本提示、推荐驱动的提示、参与驱动的提示和推荐驱动加参与驱动的提示。我们的实证实验证明结合原始内容描述和 LLM 生成的增强输入文本,使用这些提示策略可以改善推荐性能。这一发现强调了将多样的提示和输入增强技术与大型语言模型相结合以提高个性化内容推荐能力的重要性。
Jul, 2023
本文研究了自动提示技术在六个不同的下游任务和更广泛的 K-shot 学习场景中的应用。我们发现,自动提示并不总是优于简单的手动提示。我们的研究表明,在这一领域的研究中,除了 fine-tuning 之外还应该使用手动提示作为基线。
Apr, 2023