本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
研究调查了大型语言模型(LLMs),特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分(AES)系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。
Jan, 2024
使用大型语言模型测试了三个 MOOC,发现通过零样本思维链(ZCoT)引导学生作答可以更准确地替代同伴评分,为大规模在线课程提供改进学习体验的自动评分系统。
Jun, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
通过使用全面的准则为任务提供自然语言反馈,我们提出了一个允许大型语言模型使用准则的通用框架,然后在真实场景中的三个任务中评估了我们的反馈生成框架,揭示了整合准则和示范的细致效果,并提供了有关如何教授大型语言模型更有效使用准则的宝贵见解。
Mar, 2024
利用 Large Language Models (LLMs) 和 encoder-based Semantic Textual Similarity (STS) 模型对编程领域学生解答的自动评估进行了比较,发现 LLMs 在少样本和思维链模式下与 fine-tuned encoder-based 模型的性能相当。
Dec, 2023
使用大型语言模型(LLMs)取代 MOOCs 中的同行评分,通过 Zero-shot-CoT 和多个方案进行教学,发现 Zero-shot-CoT 与教师提供的答案和评分标准相结合的结果与教师评分更加一致,为 MOOCs 自动化评分系统提供了有希望的方向。
Feb, 2024
借助大型语言模型(LLMs)等新的自然语言处理技术,自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明,前述三个因素确实影响了被测试 LLMs 的性能,并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法,在预测性能、计算效率和一致性方面取得良好平衡。
使用参数高效微调(PEFT)方法中的量化模型,通过细调大型语言模型(LLMs)自动为短答案和论文分配连续数值评分以及生成相关反馈,达到高准确性且成本和延迟相对较低。