Jun, 2024

GPT-4 Turbo 在基于布鲁姆修订分类的教科书中生成学校级问题的效果如何?

TL;DR我们评估了 GPT-4 Turbo 在零样本模式下,从 NCERT 教科书中生成教育问题的有效性。我们的研究强调了 GPT-4 Turbo 在生成需要更高阶思维技能的问题方面的能力,特别是根据布鲁姆修订的分类在 “理解” 层次。虽然我们发现 GPT-4 Turbo 生成的问题在复杂性方面与人类评估的问题之间存在显著的一致性,但有时会有差异。我们的评估还揭示了人类和机器评估问题质量的差异,这种趋势与布鲁姆修订的分类水平呈相反关系。这些发现表明,尽管 GPT-4 Turbo 是一个有前景的教育问题生成工具,但其有效性在不同的认知层次上存在差异,进一步的改进是为了更好地满足教育标准的需要。