评估大型语言模型为不同中学生个性化科学文本的能力

Aug, 2024

评估大型语言模型为不同中学生个性化科学文本的能力

Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners

Michael Vaccaro Jr, Mikayla Friday, Arash Zaghi

TL;DR本研究针对大型语言模型在K-12教育领域的应用缺乏探讨的问题，采用随机对照试验评价GPT-4个性化科学文本的有效性。结果显示，当文本与学生的学习偏好一致时，学生表现出显著的偏好，表明GPT-4能够有效地根据学习者的个性化需求调整教育内容，推动个性化学习技术的发展。

Abstract

Large Language Models (LLMs), including OpenAI's GPT-series, have made significant advancements in recent years. Known for their expertise across diverse subject areas and quick adaptability to user-provided prompts, LLMs hold unique potential as →

发现论文，激发创造

大型语言模型在教育中的实际和伦理挑战：系统文献综述

本文对基于大型语言模型的教育技术创新进行了系统文献综述和理论分析，并提出了以人为本的开发推荐，以解决基于大型语言模型的教育任务自动化可能带来的实际和伦理挑战。

Mar, 2023

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是GPT-4的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了AI驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用GPT-4创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用LLM的最佳实践，如利用模板，微调，处理意外输出，实施LLM链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制GPT-4从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用AI驱动的语言模型潜力，以增强教育成果。

May, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4和GPT-3.5在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了LLMs在洞察力提取方面的巨大潜力。

Sep, 2023

ChatGPT自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

教育领域中的大型语言模型：愿景和机遇

通过调查和总结大型模型在智能教育中的应用，本文旨在提供关于LMM4Edu潜力和挑战的指导和见解，并为教育者、研究人员和政策制定者深入理解和进一步推进LMM4Edu的发展和应用提供指导。

Nov, 2023

推进生成人工智能：科学教育中多模态大语言模型的变革性作用

通过呈现示例创新的学习场景，探索了多模态大语言模型 (MLLMs) 在科学教育的核心方面的转变作用，包括文本创作、个性化学习支持、培养科学实践能力以及提供评估和反馈。同时，强调了在实施MLLMs时采取平衡的方法的必要性，确保技术对教育者角色的补充，以确保人工智能在科学教育中的有效和道德使用。

Jan, 2024

评估大型语言模型在GMAT上的表现:对商业教育未来的影响

该研究介绍了一项评估七种主要大型语言模型（LLMs）在商业教育领域的性能的基准测试，同时研究还证明了大多数LLMs在GMAT考试中的出色表现，特别是GPT-4 Turbo超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力，并强调了在发展和应用人工智能时的一些挑战和需求。

Jan, 2024

大型语言模型是否能胜任? 一项实证研究评估LLM评分K-12教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现，并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。

May, 2024

提升教育中主动学习的生成式人工智能：基于GPT-3.5和GPT-4的个性化测试题比较研究

研究了LLMs，特别是GPT-3.5和GPT-4，如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示，GPT-4能够生成准确、具有挑战性的问题，并且GPT-3.5在从GPT-4接受指导后在处理更复杂问题方面有了明显改善，从而突显了LLMs模拟和增强主动学习场景的潜力，为个性化教育中的人工智能提供了有前景的途径，需要在不同的教育环境中进一步探索。

Jun, 2024

大型语言模型的生命周期：教育中的偏见评审

大型语言模型在教育环境中得到越来越广泛的应用，以为学生和教师提供个性化支持。然而，这些模型的整合引起了有关算法偏见的担忧，可能加剧教育不公平问题。本综述从传统机器学习生命周期的角度出发，提供了大型语言模型从初始开发到在教育应用中定制预训练模型的全面生命周期图。文章讨论了在教育背景下可能出现的偏见来源，并解释了为什么传统机器学习中的偏见度量无法迁移到教育中由大型语言模型生成的内容，因为文本是高维的，可能存在多个正确的回答，而定制回答可能是教学上合理而非不公平的。这篇综述旨在阐明大型语言模型应用中的复杂偏见现象，并为其评估提供实际指导，以促进教育公平。

Jun, 2024