LLM和BoW的自动化课堂教学支持评估:将全局预测与具体反馈联系起来
使用大型语言模型(LLMs)探索错误检测在探究式学习中的应用,并解决学生实验协议等复杂、不完整、甚至矛盾和多样化的数据中的逻辑错误识别的困难。
Aug, 2023
本研究评估了大型语言模型(LLMs)GPT-4和GPT-3.5在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了LLMs在洞察力提取方面的巨大潜力。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
研究调查了大型语言模型(LLMs),特别是GPT-4和经过精细调整的GPT-3.5作为自动作文评分(AES)系统的工具的有效性。实验结果显示LLM-based AES系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。
Jan, 2024
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
评估教学质量是教育系统改进的基本组成部分。本研究首次运用自然语言处理技术来评估两种不同教育环境中的多项高推断教学实践,包括线下K-12班级和面向未来教师的模拟表现任务,并将NLP应用于广泛认可对特殊需要学生特别有效的教学实践的度量。结果表明,预训练语言模型在较为离散且需要较低推断的变量上表现与人类评分者的一致性相当,但在更复杂的教学实践上表现逐渐减弱。有趣的是,仅使用教师的话语作为输入对学生中心的变量产生了强大的结果,缓解了在线下教学环境中收集和转录高质量学生语音数据的难度问题。本研究发现了当前教育领域自然语言处理技术的潜力和局限性,并为进一步研究开辟了新的途径。
Apr, 2024
使用人工智能驱动的多模态方法,自动评估课堂鼓励和温暖程度,以及通过高级、多模态技术实现自动化课堂观察,旨在通过频繁和有价值的反馈促进教师培训。
Apr, 2024
借助大型语言模型(LLMs)等新的自然语言处理技术,自动评估课堂讨论质量变得越来越可行。本文研究了两种LLMs的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种LLMs的计算效率和预测一致性。结果表明,前述三个因素确实影响了被测试LLMs的性能,并且预测一致性与性能之间存在关系。我们建议采用以LLMs为基础的评估方法,在预测性能、计算效率和一致性方面取得良好平衡。
Jun, 2024
大型语言模型在教育环境中得到越来越广泛的应用,以为学生和教师提供个性化支持。然而,这些模型的整合引起了有关算法偏见的担忧,可能加剧教育不公平问题。本综述从传统机器学习生命周期的角度出发,提供了大型语言模型从初始开发到在教育应用中定制预训练模型的全面生命周期图。文章讨论了在教育背景下可能出现的偏见来源,并解释了为什么传统机器学习中的偏见度量无法迁移到教育中由大型语言模型生成的内容,因为文本是高维的,可能存在多个正确的回答,而定制回答可能是教学上合理而非不公平的。这篇综述旨在阐明大型语言模型应用中的复杂偏见现象,并为其评估提供实际指导,以促进教育公平。
Jun, 2024
本文针对当前自动指令遵循评价中的问题,尤其是关于大型语言模型(LLMs)评估者的全面性不足展开研究。我们通过对25个基础LLMs和15个评估协议进行详尽的元评估,揭示了最佳表现的基础LLMs和评估协议,从而为未来的研究提供了系统性支持。
Oct, 2024