利用大型语言模型对海量在线开放课程进行分级

Jun, 2024

利用大型语言模型对海量在线开放课程进行分级

Grading Massive Open Online Courses Using Large Language Models

Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger

TL;DR使用大型语言模型测试了三个 MOOC，发现通过零样本思维链（ZCoT）引导学生作答可以更准确地替代同伴评分，为大规模在线课程提供改进学习体验的自动评分系统。

Abstract

massive open online courses (MOOCs) offer free education globally to anyone with a computer and internet access. Despite this democratization of learning, the massive enrollment in these courses makes it impractical for one instructor to assess every student's writing assignment. As a

massive open online courses peer grading large language models automated grading systems rubrics

发现论文，激发创造

大型语言模型作为 MOOC 课程的评分器

使用大型语言模型（LLMs）取代 MOOCs 中的同行评分，通过 Zero-shot-CoT 和多个方案进行教学，发现 Zero-shot-CoT 与教师提供的答案和评分标准相结合的结果与教师评分更加一致，为 MOOCs 自动化评分系统提供了有希望的方向。

Feb, 2024

如人类评分：用大型语言模型重新思考自动评估

我们提出了一个基于大型语言模型的评分系统，包括开发评分标准，提供准确一致的得分和定制化反馈，以及进行后评估，并在新的数据集上进行了广泛实验，验证了我们的方法的有效性。

May, 2024

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

使用 LLMs 评估学生的开放式书面答案：基于 RAG 框架，针对 GPT-3.5，GPT-4，Claude-3 和 Mistral-Large 进行

教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果，发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。

May, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

评估和优化大型语言模型的教育内容

利用语言模型作为教育专家评估不同学生群体学习成果的方法，以优化教育材料。这种方法可以复制已有的教育研究结果，如专业逆转效应和变异效应，展示了语言模型作为可靠教育内容评估者的潜力。基于此，我们介绍了一种通过一个语言模型生成教育材料，另一个语言模型作为奖励函数进行指令优化的方法，并在数学问题工作表领域应用了这一方法，以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估，发现语言模型的判断与人类教师的偏好具有显著的一致性。最后，我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。

Mar, 2024

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

CourseGPT-zh：基于知识蒸馏的教育型大型语言模型与提示优化

CourseGPT-zh 是一种面向课程的教育 LLM，支持定制化和低成本部署，并通过高质量的问答语料蒸馏框架和离散提示优化方法来提高响应质量，具有强大的专业能力。

May, 2024

开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力

通过使用 GPT-4 对多个开源语言模型的反馈进行评估，本研究探讨了大型语言模型在教育领域中生成反馈的质量，并发现一些模型在性能上可以与专有的语言模型竞争，从而为其在教学环境中的负责任使用提供机会。

May, 2024