CITING:大型语言模型为指导调整课程创作
利用语言模型作为教育专家评估不同学生群体学习成果的方法,以优化教育材料。这种方法可以复制已有的教育研究结果,如专业逆转效应和变异效应,展示了语言模型作为可靠教育内容评估者的潜力。基于此,我们介绍了一种通过一个语言模型生成教育材料,另一个语言模型作为奖励函数进行指令优化的方法,并在数学问题工作表领域应用了这一方法,以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估,发现语言模型的判断与人类教师的偏好具有显著的一致性。最后,我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。
Mar, 2024
本研究提出了 SciTune 框架,通过调整 Large Language Models,与科学学科,概念和目标相符合,提高 LLMs 的理解科学多模态指令的能力,并通过 ScienceQA 基准测试表明,与仅使用机器生成数据调整的模型相比,LLaMA-SciTune 在各个子类别上均优于人类表现。
Jul, 2023
应用结构化认知学习方法于现代大型语言模型的指令调优,通过提供高度结构化合成数据集,模仿人类教育的渐进和有组织性,可以显著提升语言模型在理解和响应复杂指令和任务方面的能力。
Oct, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用,并分析了影响 IT 结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了 IT 存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响:(1) 大脑对齐,即 LLM 内部表示与人类语言系统的神经活动相似度,(2) 行为对齐,即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6%,但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素,我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优 LLMs 可以改善世界知识表示和大脑对齐,这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
本论文探讨了在教学设计中利用大型语言模型(LLMs),尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的,通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性,强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作,其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验,我们提供有效使用 LLM 的最佳实践,如利用模板,微调,处理意外输出,实施 LLM 链,引用参考文献,评估输出,创建量表,评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景,该推荐系统可以根据用户的独特教育背景,定制 GPT-4 从教育研究中提取教学设计原则,并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力,以增强教育成果。
May, 2023
这项研究介绍了 ALCE,一个自动化 LLMs 引用评估的评测基准,通过自动度量三个维度 - 流畅度、正确性和引用质量,强调了更好的检索器、长文本 LLMs 等方向的改善空间。
May, 2023
本文探讨了大型语言模型在心理咨询中的应用,通过专用提示信息来提高其在提供共情、相关和支持性回应方面的性能,研究结果表明我们的训练模型优于几个基线模型,凸显其作为可扩展且易于获取的心理健康支持工具的潜力。
Jun, 2024