Feb, 2024

评估大型语言模型在课堂对话分析中的应用

TL;DR该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。