使用语言模型评估教育中的教学质量的优点与缺陷

Apr, 2024

使用语言模型评估教育中的教学质量的优点与缺陷

The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education

Paiheng Xu, Jing Liu, Nathan Jones, Julie Cohen, Wei Ai

TL;DR评估教学质量是教育系统改进的基本组成部分。本研究首次运用自然语言处理技术来评估两种不同教育环境中的多项高推断教学实践，包括线下K-12班级和面向未来教师的模拟表现任务，并将NLP应用于广泛认可对特殊需要学生特别有效的教学实践的度量。结果表明，预训练语言模型在较为离散且需要较低推断的变量上表现与人类评分者的一致性相当，但在更复杂的教学实践上表现逐渐减弱。有趣的是，仅使用教师的话语作为输入对学生中心的变量产生了强大的结果，缓解了在线下教学环境中收集和转录高质量学生语音数据的难度问题。本研究发现了当前教育领域自然语言处理技术的潜力和局限性，并为进一步研究开辟了新的途径。

Abstract

Assessing instruction quality is a fundamental component of any improvement efforts in the education system. However, traditional manual assessments are expensive, subjective, and heavily dependent on observers' expertise and idiosyncratic factors, preventing teachers from getting time

发现论文，激发创造

Curriculum: 自然语言理解广覆盖语言现象基准测试

本文介绍一种新的NLI基准Curriculum，其中包括36种广泛涵盖的语言现象的数据集和评估程序，证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性，同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。

Apr, 2022

自然语言处理在课堂讨论自动评估中的应用

本研究旨在通过使用NLP技术自动生成课堂讨论质量的评估得分，对90个课堂讨论文本记录进行分析和评估，在焦点为四个评估材料的基础上，研究表明在某些方面有了令人鼓舞的结果，同时也发现在其他方面还有进一步的改进空间。

Jun, 2023

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现GPT-4在教师-学生聊天记录子集上的优越性，测量标准是BERTScore和DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4和GPT-3.5在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了LLMs在洞察力提取方面的巨大潜力。

Sep, 2023

LLM和BoW的自动化课堂教学支持评估：将全局预测与具体反馈联系起来

应用大语言模型来估计教学支持领域中的CLASS得分，使用零-shot提示和词袋模型对教师讲话的个别话语进行分类，通过实验发现自动估计方法准确性接近人际可靠性，并结合特征提取来提供教师可解释反馈。

Oct, 2023

教育自然语言处理综述: 分类、系统回顾与未来趋势

自然语言处理（NLP）旨在通过计算机科学领域的技术来分析文本，适用于医疗、商业和教育领域的应用。本文回顾了近期在教育领域解决问题方面的NLP的最新进展，介绍相关背景，提出NLP在教育领域的分类体系，并基于该体系讨论任务定义、挑战以及相应技术。随后展示了该领域中的一些现有演示，并给出未来方向的结论。

Jan, 2024

评估和优化大型语言模型的教育内容

利用语言模型作为教育专家评估不同学生群体学习成果的方法，以优化教育材料。这种方法可以复制已有的教育研究结果，如专业逆转效应和变异效应，展示了语言模型作为可靠教育内容评估者的潜力。基于此，我们介绍了一种通过一个语言模型生成教育材料，另一个语言模型作为奖励函数进行指令优化的方法，并在数学问题工作表领域应用了这一方法，以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估，发现语言模型的判断与人类教师的偏好具有显著的一致性。最后，我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。

Mar, 2024

提升教学质量：利用计算机辅助文本分析从教育资料中生成深度洞察

通过对教育文本的深度洞察，本文探讨了计算机辅助文本分析在提高教学质量方面的转变潜力，结合Richard Elmore的教学核心框架，研究了人工智能和机器学习方法特别是自然语言处理在分析教育内容、教师论述和学生反馈方面的作用，从教师指导、学生支持和内容开发等关键领域发现了AI/ML集成的重要优势，并揭示了AI/ML的模式，不仅可以简化行政任务，还可以为个性化学习引入新的途径，为教育工作者提供可操作的反馈，为教学动态提供更深入的理解。本文强调将AI/ML技术与教学目标相一致，实现其在教育环境中的充分潜力，提倡平衡的方法，包括考虑道德考虑、数据质量和融合人类专业知识。

Mar, 2024

关于指导性文本的系统性调研：从表征到下游NLP任务

本研究针对复杂、多步骤指令理解与处理的现有研究缺口进行了系统性分析，回顾了177篇相关论文，识别出当前领域的趋势、挑战与机遇。通过总结可用资源和表征方案，为AI/NLP研究人员提供了必要的背景知识和统一视角，促进了不同研究方向之间的联系，并突出了未来的研究机会。

Oct, 2024

关于指令文本的系统性调研：从表示格式到下游自然语言处理任务

本研究解决了当前自然语言处理系统在处理复杂多步骤指令时面临的挑战，并提供了一份关于复杂指令理解与处理的系统性综述。通过分析177篇相关文献，我们识别了这一新兴领域的趋势、挑战与机遇，为AI/NLP研究人员提供了必要的背景知识和对各种复杂指令理解方法的统一视角，促进了不同研究方向之间的联系，并指出了未来的研究机会。

Oct, 2024